Scribble at 2026-03-13 14:55:21 Last modified: 2026-03-13 15:44:59

添付画像 — 画像生成AIの選定で押さえるべきFLUX.2の基本設計と技術的優位性

手持ちの作業環境が安定したようなので（修理から戻ってきて、やはり一週間は様子を見ていた）、そろそろ SDXL のように軽いモデルで軽い画像ばかりつくってはいられない。そこで、じっくり色々と試すベースとして、最新のモデルから一つに決めることとした。幾つかを使い分けてもいいのだが、プロンプトや Forge Neo の設定などはモデルによって調整が異なるため、同時並行で複数のモデルを使うと、経験なりノウハウがどれについても中途半端になってしまう恐れがある。やはり一つに決めて、あるていどはコミットして納得のいく画像を作れるようになるまで集中するべきだろう。

もちろん、出ているモデルをなんでも好きに選べるわけではない。いつものことだが、Ryzen 7 7700 + 32 RAM + SSD 2 TB + GeForce 5060 Ti 16 GB というスペックで、

・モデル＋テキスト・エンコーダ＋VAE の合計サイズが VRAM の容量を超えないか、少なくともメイン・メモリへのオフロードの範囲に収まる。

・生産性、つまり1,920 x 1,080 ピクセルの画像で１枚あたりの生成速度が20秒を超えないこと。

この二つを満たすモデルに限られる。これを満たさないモデルは、どれほど結果が美しいとかプロンプトへの追随性能が高いとかテキストの描写が正確だとかプロ品質だとか言われていようと、少なくとも僕の現実的な道具としてはオーバー・スペックである。そして、それは別に恥ずべきことでもなければ改善するべきことでもない。おそらく、僕の環境で FLUX.2 [dev] を動かすのは無理だが、それよりも品質が低いとされるモデルを使ってでも、「呪文」などと言ってるたいていの無能なパソコンおたくが作っているスケベ画像を遥かに凌駕する画像を作る自信くらいはある。なんなら SD 1.5 のような３年前のモデルでも、カスみたいな生成 AI のブログを運営してる連中のクォリティを上回る画像だって出せる。それは、品質を評価するデザイナーとしての才能がパソコンおたくとは違うからだし、僕はそれに加えてエンジニアでもある。30万円のグラフィック・カードを搭載したパソコンを持っているていどのパソコンおたくが僕らの才能を凌駕するなどおこがましいにも程がある。

さて、上の条件に加えて、今回は他にも条件を入れることにした。やはりモデルをトレーニングする際の方針がどうなっているかも、一つの基準にした方がいいからだ。そして、幾つかのブログ記事や Reddit などの議論を見ていると、やはり Qwen や Z-Image は明らかに既存のアニメや漫画の（二次創作の絵ではなく）オリジナルの作品を利用しているとしか思えない結果になっているようだ。つまり、宮崎作品のように描かさせたら、まるっきり宮崎アニメのスタイルで描いてしまう。これは自分のサイトで画像を公開する立場としては、いくら非商用だとしても道義的な是非を問われかねないであろう。また、仮にプライベートで画像を作るだけだとしても、そういうモデルを利用し続けて実質的にサポートすることになるのもどうかという気がする。したがって、パフォーマンスでは2026年3月の時点で Z-Image は評価が高いようだが、僕の作業環境での採用はやめることにした。Qwen については、多くのサイトで「ゴミ」という評価があるから論外である。そして、数日前に LM Studio の Python ライブラリを使うテキスト処理で使っていた Qwen も放棄して、別のモデルを使うことにしたい。

というわけで、Stability.AI vs. Black Forest Labs の二者択一ということになるのだが、上の非常に丁寧な解説を参考にしていて、結論として FLUX.2 [klein] を使うことにした。そもそも、僕が使っている Forge Neo では、既に SD 3.x をサポートしなくなったという理由もあるし、FLUX.2 [klein] は実際に使っているモデルの一つだからだ。そして、FLUX.2 [klein] でも 4B はプロンプトの解析性能が貧弱だという評価が記事の中にあるが、僕の使っているモデルは @wikeeyang さんがリリースしている 9B パラメータ版の量子化モデル（fp8）だ。

https://civitai.com/models/2339723/flux2-klein-9b-true?modelVersionId=2631767

ということで、暫くはこれをベースに色々と試すことにする。ちなみに、このモデルだと1,920 x 1,080ピクセルの壁紙を１枚出すのに約12秒である。

ただ、上の方針は徹底できるわけではない。なぜなら FLUX.2 [klein] 9B のテキスト・エンコーダは、ほぼ Qwen 3 ベースくらいしか選択肢がないからだ。かろうじて Mistral のテキスト・エンコーダもリリースされているらしいが、実際に Huggingface で確認すると、最も軽いファイルですら 13 GB もあって、これは実用性が乏しい。

>> もっと古いノート

冒頭に戻る