Scribble at 2023-07-27 16:04:01 Last modified: 2023-07-27 16:11:26

Stable Diffusion は、次期バージョンの XL (SDXL 1.0) が登場したけれど、いぜんとして SD 1.5 までの旧バージョンでやれることはたくさんある。これは、もちろんアーティストの才能に置き換えられるとは限らないにしても、彼らが鉛筆1本で描けることがいくらでもあるのと似た話であろう。異なるバージョンでは、また違うことが色々とできるにせよ、現行のバージョンでやれることをやりきったなんて、とても言えるものではない。

いまのところ、これから公開する予定のサイトで「マスコット・キャラ」として採用する予定の画像を色々と試しながら作っている。古墳時代の女性という大雑把なコンセプトはあるが、既存の復元図を参考にして、ポンパドールのような「島田髷」と呼ばれる髪型に似せて出力できそうなキーワードを探したり、まだまだ時間はかかりそうだ。写実的な女性を描くと問題が起きやすそうな気はするので(実在する人物に、たまたま似てしまう可能性はあろう。イラストとは違って、全ての人が自分の写真をネットで公開しているわけではないから、検索だけではなんとも判断ができない)、現状ではイラストとして生成してみてから画像検索にかけて、類似するキャラがいないかどうか確認している。ただし、問題がなければ写実的なキャラを使いたいような気もしているので、ひとまず暇があるときに写実的な画像を生成するモデルも試しに幾つか使っているところだ。もちろん僕自身の写真を使ってトレーニングした再調整データ(LoRA)で、これはあくまでも遊びの範囲だが、自分自身に似た画像が出てくるかどうか試したりもしている。

写実的な分散モデルにも色々とあるわけだが、なかなか定番と言えそうなものがない。検索すると、もちろん有名な分散モデルを薦める記事は見つかるけれど、一概に記事で勧めている分散モデルが誰の用途にも適しているとは限らない。例えば、僕のように自分自身の写真からトレーニングした LoRA がある場合、最も優先されるべきは LoRA の適合性だ。LoRA の適用度を 1.0 以上に強く設定しても、分散モデルによっては LoRA の値を殆ど無視して、ベースになっているキャラの画像しか出力しないものもある。ただし、そういう分散モデルだからといってプロンプトまで無視するかと言えば、実はそうでもなかったりするのだ。寧ろ、ベースのキャラが堅い分散モデルの中には LoRA の適合性が高い分散モデルよりもプロンプトに忠実な構図やポーズを出力してくれる事例もあったりするから、単純に評価できないわけである。

評価の基準や評価の尺度・種類は各人で異なるだろうから、これはあくまでも僕自身が優先している尺度と、僕が評価したときの基準という但し書きの上でご紹介する。そういう前提の上で僕が評価した結果を以下に示してみよう。僕自身の LoRA を使った画像は比較するほどの分散モデルを使っていないので、古墳時代の女性を出力するときに使っている、主に女性の画像を出力するためにリリースされている分散モデルを比較した。比較した対象は、Basil Japan, Beautiful Realistic Asian (BRA), Blaster EX, Bracing Evo Mix, Brahen Mix Real, Matrix Asian Paradise, Wedding Imperial である。

これらの中で、まず写実性が最も高いと思ったのは Bracing Evo Mix だった。これは、恐らく多くの方が同じ評価だろう。Bracing Evo Mix もマージの要素にしている Beautiful Realistic Asian (BRA) は、追加の調整をすれば品質が上がるのだろうと思うが、6 GB の VRAM で動く RTX 2060 のグラフィック・ボードで動かしている範囲では、逆に僕が比較した分散モデルの中で飛び抜けて品質が悪かった。顔が崩れてしまってめちゃくちゃだったのだ。

次に、モデルの適応性(LoRA によるデータ修正がどのていど有効か)も Bracing Evo Mix が最も優秀だった。5枚ずつ出力して、LoRA で追加した(某芸能人)外見をどのていど再現しているかで評価したわけだが、Brarcing Evo Mix は殆どの画像で、この芸能人に似た女性を出力できた。

そして三つ目の尺度として、プロンプトへの忠実度を測ってみた。これは、よくやることだと思うが、被写体への距離、カメラの位置や角度、そして被写体を収める範囲という指標で、とりあえず "cowboy shot, from behind, looking back" というキーワードで、見返り美人的な構図をとれる画像が5枚中に何枚だけ出てくるかで評価した。これは、Basil Japan や Wedding Imperial や BRA が優秀な結果となり、Bracing Evo Mix などは大半の画像が顔のアップになってしまった。

ということで、総合評価としては意外かもしれないが、BRA とか Bracing Evo Mix のように有名な分散モデルではなく、やはりプロンプトに忠実な結果が出ている Basil Japan や Wedding Imperial の方が扱いやすいと思う。確かに LoRA を適用して特定のキャラとか特定の芸能人の画像を合成したいという(たいていはスケベな動機の)人たちには不満があるかもしれないが、なんだかんだ言ってもプログラムや機械というものは、簡単な制御で一貫性のある結果を出すことが優先されるべきだろう。

それから、こういう実験をやるときに(あるいは LoRA を新しい分散モデルで使うときに)注意したいのが、LoRA の強度を上げすぎないということだ。イラストやアニメ・キャラの LoRA を使うときは、強度を 1.0 くらいにするよう勧めるコメントが作者から指示されていたりするようだが、写実的な分散モデルで実在する人物の写真を元に作成した LoRA を適用する場合は、強度を上げすぎると結果はたいてい良くない。表情に対応する目や口の写真(つまりトレーニング用の元データ)がなくて、別の写真から無理に填め込んでヘンテコな画像になることが多いからだ。そして、身体に対して顔の向きや大きさというのは、不思議なことに少しでも不合理なところがあると強い違和感を覚えるものらしい。なので、よい結果になっていない画像だと、顔の写真だけ身体に貼り付けたような画像に見えてしまうのだ。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook