Scribble at 2026-03-11 20:29:01 Last modified: 2026-03-12 11:10:44

添付画像

A majestic panoramic landscape of the Wulingyuan (張家界) mountain range in China. Countless sandstone pillars rise like giant skyscrapers from a dense sea of white clouds. Ancient Pine trees (黄山松) grow horizontally from the vertical cliffs. The atmosphere is filled with ethereal morning mist and the Tyndall effect, with golden sunlight piercing through the fog. In the distance, a small traditional Chinese stone pavilion (涼亭) sits precariously on a sharp peak. Photorealistic style, cinematic lighting, 8k resolution, extreme details of rock textures and forest greenery, grand scale, serene and mystical atmosphere. Super realistic, black and white, monochrome photograph by Ansel Adams.

Steps: 10, Sampler: Euler, Schedule type: Simple, CFG scale: 1, Shift: 1, Seed: 3185975443, Size: 1920x1080, Model hash: 00287abed0, Model: redcraftMar0826LatestZib_zibDistilled, Clip skip: 2, RNG: CPU, Version: neo, Module 1: ae, Module 2: qwen_3_4b

久しぶりにメインのパソコンをフルに動かせるようになったので、この機会に作業環境を一新して、それまで使っていたプロンプトなどもすべて放棄して、プロンプトの構造も含めて見直すことにした・・・と言えば体裁はできるが、実は動作がおかしくなってパソコンを初期化したときに、テキスト・ファイルの多くを NAS へ退避していなかったので、どのみち手元に残っていないのであった。とは言え、基本的な情報は頭に残っているため、環境の再構築はさほど難しいものではない。ただし、利用するモデルも新しくするので、記憶をそのまま流用するというわけにはいかない。

たとえば、上でご覧いただいている画像は Z-Image Base の推論精度を16ビットにした「RedCraft | 红潮 | Mar 08 '26 | Latest - ZiB(AGILE)⚡️Distilled」というモデルを使っている。ご承知のように、Z-Image Base は既に普及している Z-Image Turbo という高速版と互換性が弱いので、お互いに殆ど LoRA が使えなかったりするほどだ。したがって、プロンプトも Z-Image Turbo の内容でそのまま使えるとは限らない。ということで、どのみち一から作業環境を作るのだから、プロンプトの設計もやりなおして、それ自体を生成するためのプロンプト(LM Studio で作るときのシステム・プロンプトも含めて)を再設計することにしている。上の画像は、試しに Gemini に作ってもらったプロンプトで描いているが、まだまだこれではシャープさもないし、感心させられるような構図でもない。特に、これはモノクロだから誤魔化せてしまっているが、これをカラーで出したら悲惨なものであり、まるっきり素人のスナップ写真である。

なお、最近は ComfyUI で使うことを想定しているからか、ComfyUI は画像の生成に必要なファイルを勝手にダウンロードしてくれる機能があるので、モデルを運用するために必要な他のファイル(テキスト・エンコーダや VAE など)の情報を Civitai や Huggingface などで書かないモデル作者が多くて辟易させられる。なので、僕のように ComfyUI ではなく Forge Neo のような A1111 系統のフロント・エンドを使っている方に説明しておく(基本的なことだが、Z-Image Base を Forge Neo で動かすときは、プロファイルは "zit" ではなく "flux" を選ぶ)。もちろん、モデルをダウンロードするだけでは不十分であり、モデルを含めて次の三つのファイルが必要だ。

・ベース・モデル:\sd-webui-forge-neo\models\Stable-diffusion\redcraftMar0826LatestZib_zibDistilled.safetensors (12 GB)

・テキスト・エンコーダ:\sd-webui-forge-neo\models\text_encoder\qwen_3_4b.safetensors (8 GB)

・VAE:\sd-webui-forge-neo\models\VAE\ae.sft (335 MB)

ということで、合計で 20 GB を超えるため、GeForce RTX 5060 Ti 16 GB でもメインのメモリなどへオフロードしてやっと動く。SD 1.5 を RTX 2060 6 GB で動かしていたときのように、ページング・ファイルへオフロードするようなことをしていたのでは、生産性がまったくないであろうから、VRAM + RAM の範囲で何とか動くこれが限界だろう。これ以上の巨大なモデルでは、それこそこのマシンですらページング・ファイルを使うことになって、全く実用性がない。なお、上の画像は最初のモデルをメモリへロードする所要時間などを除けば、通常運転で1枚あたり約20秒で出せる。いきなり1,920 x 1,080ピクセルの壁紙を出そうというのだから、それくらいの時間はかかる。1,024 x 1,024ピクセルだと約13秒といったところだ。

[追記:2026-03-12] それから追記しておくと、note などには自分で実際に使ってもいないものをまことしやかに解説してみせる馬鹿がたくさんいて、Z-Image Base についても蒸留モデルですら好きなテキスト・エンコーダと一緒に使える(つまり、何を選んでもいい)かのようなことを書いている人がいるので、そういうブログは無視した方がいい。テキスト・エンコーダは適したものを選ばないと、画像を生成するときに必ず「計算精度がマッチしない」というエラーが起きるのだ。なので、上のベース・モデルについても、"qwen_3_4b_fp8_mixed.safetensors" や "qwen_3_8b.safetensors" などを使うとエラーが起きる。あと、VAE の ".sft" という拡張子はあまり見かけないが、これはファイン・チューニングしてある safetensors 形式にすぎないので、実質は ".safetensors" だ。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る