Scribble at 2023-12-03 14:46:21 Last modified: 2023-12-03 15:18:01

Stable Diffusion で画像を生成するときの一般論として、Web UI でサポートされている negative prompt は可能な限り使わないほうが良いとされている。特に業務として画像を生成させている人々のあいだでは、プロンプトだけで目当てのポーズとか画質でいちどに出力しようとするのは、おおむね無駄なアプローチだとされている。寧ろ、おおまかな設定で量産してから目当ての構図となったシードを固定して細部を描きなおしたり、impaint で修正したり、そこから Photoshop などで微調整したり他の画像と組み合わせたりすることで完成させるというのが標準的な工程だという。なので、標準のプロンプトであれ negative なプロンプトであれ、むやみに盛り込みすぎるのは、却って後からの微調整がやりにくくなるだけなのだ(プロンプトが多いと、どのプロンプトの影響でおかしくなっているのか、原因を見つけるのに時間がかかる)。特に、negative prompt に避けたい特徴をやたらと書き出している事例を "prompt wall" などと呼んだりするようだが、そういうことをしてもあまり効果はない。

また、negative prompt だけではなく、それらを特定の用途で詰め込んだような textual inversion という追加機能も、使い過ぎは無意味だったり、画質が変わってしまうといった副作用がある。easynegative という有名なものを始めとして、FastNegativeV2、an7-neg、badquality、nncursedV0、NegfeetV2、CR1.2-neg、verybadimagenegative_v1.3、by bad artist -neg といったように、画質を抑制したり妙な手足が出ないようにしたり、あるいは特定のアーティストの画風を避けるといったものまで色々な textual inversion または LoRA が公開されているが、これらを詰め込んでも出力される画像の品質や人物の描き方には、あまり大差がないという。もちろん「あまり大差がない」と言える程度には僅かな違いを認めることができるのだとしても、それは恐らくコンピュータに判別できてもヒトの認知能力では見分けられないていどの理論上の違いである。また、こうした効果は textual inversion を作成するときに基準とした分散モデルに関連付けられている可能性があるため、特定の分散モデルでしか有効に働かない可能性もある。特に、textual inversion ではなく LoRA として公開されている微調整用のファイルなどは、LoRA 全般の特性として複数の LoRA を組み合わせると起きる複雑さのせいで、結果は予想が難しい。

ということなので、人物像を出力するときに僕が使っている negative プロンプトや textual inversion は、せいぜい easynegative か fastnegativeV2 くらいだ。それ以外の、画質を調整したり手や足の奇形とか異常を抑制するという textual inversion は、はっきり言って殆ど効果がないというのが実感で、数百枚ほど試してからは使わなくなった。もちろん、この手のデータは統計的にしか効果が分からないので、数枚や数十枚の出力では効果があるのかないのか言えないからである。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook