Scribble at 2026-02-10 13:27:59 Last modified: 2026-02-10 13:32:15

添付画像

a cat

Steps: 4, Sampler: Euler, Schedule type: Beta, CFG scale: 1, Seed: 2067772274, Size: 1024x1024, Model hash: 0975d6b77b, Model: flux-2-klein-9b, Clip skip: 2, RNG: CPU, Beta schedule alpha: 0.6, Beta schedule beta: 0.6, Version: neo, Module 1: flux2-vae, Module 2: clip_l, Module 3: qwen_3_8b

Z-Image Turbo での画像生成は試験段階を終わったので、次に FLUX.2 Klein を試してみている。ただ、これは Forge Neo だと最新版にアップデートしないといけないので、これをよい機会と考えて、ローカルの環境を刷新して最初から構築しなおした。そもそも、"git pull" したら "audioop-lts" など、幾つかのライブラリが新しい Python を要求するので、このままでは動かないことは明らかだったのだ。

まず Python を最新の 3.14.3 として、かろうじて動いていた 3.10.x 系の Python は綺麗に消してしまった。もちろん、開発側での作業環境というものがあるため、いたずらにミドルウェアを最新版にすることが常に正しいとも適切だとも限らないが、ひとまず最新の Python にしてみて、何が適していないかを見極めることも一つの経験である。最初からやりなおすのだから、こういうリスクは何度でもリカバーできる。

そして、もちろんこれまで使っていた Forge Neo から LoRA やベース・モデルなどを待避させて、新しく作成したフォルダにて git コマンドでクローンした Forge Neo の新しい環境に venv を作ってからバッチ・ファイルを起動すると、Forge Neo は問題なく起動した。

なお、これまでは wd14-tagger というタグ・ファイルを生成する拡張機能を使っていたのだが、最新の Forge Neo に入れると、Forge Neo が起動しなくなる。具体的には、拡張機能が入るときに pillow(画像処理ライブラリ)を壊してしまうようなので、pillow を入れ直さないといけない。ただし、入れ直しには注意が必要であり、単純に pip で追加するだけだと、フロント・エンドの Gradio が古い pillow(画像処理ライブラリ)を要求し、pillow-heif という別のライブラリが新しい pillow を要求するという問題に遭遇したので、ひとまず "pillow-heif<0.20.0" で pillow-heif を黙らせてから "pillow>=8.0,<11.0" で pillow の問題をなんとか解決した。

さて、最新にした Forge Neo は画面の構成が変更されていて、これまでアーキテクチャごとにラジオ・ボタンのような切り替えをしていたのが、ドロップ・ダウン形式になって "sd" とか "flux" などと切り替えられるようになった。また、設定画面では "sd" のサイズ設定を変えると他のアーキテクチャの設定にまで影響があったのだが、最新の Forge Neo では正しく独立した設定になっているのがありがたい。

さて、肝心の画像生成についてだが、FLUX.2 Klein は僕のマシンでなんとか動くサイズのモデルとして、最も画質が良くてプロンプトの応答性も優れているモデルの一つとされている。いまでは QWEN や Z-Image といった中国勢に圧されている感のある Stability.AI や Black Forest Labs だが、品質としては引けをとらない。このたび生成速度の速い Klein が登場したことで、色々と試すには絶好のモデルだと考えて選択した。

ただし、要求スペックは家庭用のマシンにとっては高いものがある。まず、ベース・モデルは FLUX.2 Klein 9B(BASE じゃない)で、これだけでも 18 GB ある。そして FLUX.2 を動かすためには、これに加えて、

・T5-XXL(メインのテキスト・エンコーダー): qwen_3_8b ... 16 GB

・CLIP-L(補助のテキスト・エンコーダー): clip_l ... 246 MB

・VAE(デコーダー): flux2-vae ... 336 MB

という三つのファイルを組み合わせる必要があるので、実際に画像を生成する処理ではメモリやキャッシュへのデータ移動が頻繁に起きる。そのため、画像を生成するプロセスまでですら数十秒ほどかかるのが実情だ。これは、VRAM 16 GB、RAM 32 GB という環境ではスワップが発生するのでしょうがない。実際、上の画像が最初に作ったものだが、これ1枚で40秒ほどかかった。ただ、出来栄えはかなり素晴らしいと思う。なにせ、プロンプトは "a cat" だけなのにこれだ(笑)。

なお、FLUX.2 Klein は Forge Neo で "Klein" という専用のプロファイルを使うらしく、"FLUX" というプロファイルではない。それから愉快なことに、「ぬこ」とだけ入れるとイラストの猫が出てくる。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る