Scribble at 2023-09-20 12:12:06 Last modified: 2023-09-20 12:21:04

添付画像

研修用の動画で使う画像とか、あるいはアドベンチャー・ゲーム風のシミュレーションとかで使う挿絵のようなものを Stable Diffusion で作っている。ベースにしている分散モデルは Absolute Reality V16 というもので、これはベースの人物が西洋人の女性(どういうわけか性別を指定せずに人物を勝手に出力させると、たいていの分散モデルは女性を出力する)であるため、プロンプトに "Japanese" を追加しないといけない。もともとアジア人の写真でトレーニングした分散モデルもあるのだが、あれは追加データの LoRA を幾つか組み合わせないと、「いかにも Stable Diffusion で出力しました」的な外見の人物になってしまうから、わざと西洋人をベースにした分散モデルで調整した方がディフォールトっぽい人物を避けるにはやりやすかったりする。男性の追加データとして、LoRA には僕自身の写真を使ってトレーニングした <lora:philsci:1> というのを使っている。ただ、これだけだとまれに本当に僕が写ってるかのような画像が出てしまってキモいので、他の LoRA も読み込んで混ぜている。たとえば、カナダのトルドー首相とか、アメリカの俳優とか。

ただ、まったく人物が出ない抽象画とか風景とかアニメっぽい絵柄に比べると、実写系の画像は難しい。最も分かりやすい理由は、大半の画像で、他人の写真に顔だけ貼り付けたように見える、微妙な角度のズレが目立つからだ。そういうズレが目立たない画像というのは、どれほど綿密にプロンプトを組んでみても、おおよそ歩留まり率は 1% もない。つまり、100枚ほど出力しても全てダメということが頻繁にある。僕の実感としては、300枚に1枚くらい「おー」と感心するような出来栄えの画像が出てくれば良いほうだ。それ以外は、身体が左を向いてるのに顔だけ正面を向いてるような、観光地でガキが親に撮影してくれとせがむ仮面ライダーの顔抜き看板のような画像である。あと、上に添付したように、顔と身体の角度が合っていないばかりか、顔のパーツの位置が顔面の中で微妙にズレているものも、やはり違和感を与える。もちろん、実際には左右対称の顔なんてないし、顔面の中でパーツが絶妙な位置にある人間なんて殆どいないし、骨格がわずかに変形していて首の向きと顔の向きがズレているものなのだろう。なので、何も左右で目の形が同じとか、そんなありえない基準で判断しているわけではない。それこそコンピュータで描いたような顔になってしまう。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook