Scribble at 2025-10-14 20:40:55 Last modified: 2025-10-14 20:43:54

添付画像

Flux.1 Krea

Flux.1 でそのまま画像を生成しても、イラスト風の妙な画像が出てしまうらしく、Krea というオンラインの画像生成サービスを手掛けている会社がファイン・チューニングした Flux.1 Krea という写実的な画像の生成に特化したモデルが公開されている。ただし、Flux.1 は動作させるために色々なモジュール式のコンポーネントを併用するのが標準的なセットアップであるため、CLIP と VAE を最初から含んでいるベース・モデルを使うのがよいだろう。そもそも、カジュアルに画像生成 AI を自宅で動かすマシンにとって、CLIP や VAE をあれこれ選ぶような余裕はないだろうし、知識としても区別できるような人は殆どいないはずだからだ(最低でも、斎藤氏の『ゼロから作る Deep Learning (5)』や岡野原氏の『拡散モデル』を読んで理解できる素養が必要だ)。おまけに美学やデザインという観点でも、実際のところ生成された画像の良し悪しを商業的なデジタル・デザインとして議論できる人は少ない。プロンプトを「呪文」などと呼んでいる、ふだんはアニメ幼女のレイプ画像しか作ってないクズどもに画像の良し悪しなど語れるはずもないのだ。

ということで、CLIP や VAE を埋め込むだけではなく、さらに8ビットまで量子化された軽量なベース・モデルではあるが、Flux.1 dev 系統にあたるモデルで画像を出していたときの印象と比較すれば、上のように Flux.1 Krea を使うと何程かの改善はある。これは確かだ。あとはプロンプトの構成として公式のドキュメントが推奨しているキーワードの区分や順番などを考慮して、色々と工夫している余地がありそうだ。ただし、僕なりに思うところがあるので、オリジナルの改善も必要だと思う。画像生成 AI が作った画像に特有の癖と呼ぶべき特徴は、なにも描画スタイルや質感だけに留まらないからだ。

それは、やはり構図がフレーム内に収まりすぎているということである。言い換えると、キーワードがもつ概念に相当する何かを、フレームの枠内へ均等に詰め込みすぎているように思うからだ。生成 AI でつくった風景画や風景写真の画像がジオラマっぽい印象を与えたりする理由は、遠近法が不正確だったり、ピントが合いすぎているからだけではないのだ。ともあれ、この詰め込みすぎという点については、Stable Diffusion Web UI の場合は、プロンプト内でキーワードの位置が後になるほど効果が下がるという単純な性質があったので、逆に後の方にあるキーワードの一部を強調して不自然な均等さを避けていたのだが、どうも Flux.1 と ComfyUI の組み合わせでは違う手法が必要らしい。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る