Scribble at 2026-03-25 19:10:42 Last modified: 2026-03-25 20:59:32
a beautiful wide scene of wild nature in Africa. Steps: 4, Sampler: Euler, Schedule type: Beta, CFG scale: 1, Seed: 536589773, Size: 1024x1024, Model hash: 4de8509e7d, Model: flux2Klein9BTrue_v10Fp8, Clip skip: 2, RNG: CPU, Beta schedule alpha: 0.6, Beta schedule beta: 0.6, Version: neo, Module 1: flux2-vae, Module 2: qwen_3_8b, Time taken: 33.4 sec., A: 13.59 GB, R: 13.72 GB, Sys: 14.9/15.9287 GB (93.7%) ... どう見ても象らしき動物のサイズや遠近感がおかしい。小象だとしても、あれでは高さ 50cm もないだろう。
画像生成 AI について、まとまった論説は全く書いてこなかったけれど、かつてクリエーティブの専用サイトを作ろうとしていた事情もあるし、そろそろ何か書いていきたい。PHILSCI.INFO を閉鎖して、コンテンツをこちらへ移すという別の事情もあって、当サイトを僕の情報公開の中心に据えて、他のサイトは整理することにしているため、このサイトのコンテンツを充実させることに集中できる(つまり、takayukikawamoto.com というプロフィール専用のサイトも、そのうちドメインを手放す。「かわもとたかゆき」であれ「河本孝之」であれ、べつに僕の占有している名前でも名詞でもあるまいし、ドメインまで維持して他人との混同を防ぐ必要などない)。
じっくり取り扱う仕組みとして、既に大規模に普及している拡散モデル(diffusion models)を採用するのはいいとして、具体的にそれらのどれを使うかは、幾つかの基準なり方針を決めておかないと、時流に流されることとなる。まず、基本的な仕組みを説明するだけであれば、もちろん3年前の Stable Diffusion 1.5 で十分だ。というか、拡散モデルの解説だけなら画像生成モデルでなくてもいいし、僕はもちろん生成 AI を画像生成だけでなく翻訳や研究や仕事や音楽生成などにも使っているので、最も初等レベルの原理原則を解説するだけであれば、もっとシンプルなモデルを使った方がいい。
ともあれ、そうした初等レベルの解説もあるにはあるが、具体的に僕がいまどうやって画像を作ったり編集しているかを説明する場合には、SDXL など少し新しいモデルを取り上げる必要があるし、風景や still life な対象を描かせるなら、更に新しいモデルを紹介することとなる。特に後者は、今年に入ってからでも続々と新しいモデルが登場していて、特に中国の組織がオープンなモデルを積極的にリリースしているため、日本でもそれらを「次世代のモデル」だの「人気のモデル」だのと取り上げることとなるが、実際にはそこまで単純ではない。
正直に言って、画像生成 AI に関する日本のメディアの大半は、技術や経済や産業の話を織り交ぜて気取った解説を書いていようと、ライターや記者どころか研究者やエンジニアですら、実際のところはエロ画像を作ることが念頭にある。それゆえ、プロンプトだけで簡単にアニメのキャラが出てきたり、「自然文への追従性」などと称して、あれやこれやの体位での本番画像を出せるような、自主規制が殆どない中国企業のモデルをありがたがって囃し立てるという偏向があるのだ。世界に誇る風俗国家ではあるが、自主的に高性能な拡散モデルを開発するリソースがないため、いまや中国からのいただきものでエロ画像を作っているのが、この国の実情だ。楽天のように、中国企業がリリースした拡散モデルを微調整したていどで「国産 AI」などと恥ずかしいことを言っていようと、既に英語で情報を得ている現代の高校生諸君は、これらのインチキな大人のたわごとなど無視するのが望ましい。また、サカナがどうしたとかいう変な名前の日本企業がどれほど政府の仕事をしていようと、そんなことで日本の AI 産業がどうこう言えるものではない(東京にある会社だが、社員の大半は日本人ではない)。
そういうわけで、僕は日本のメディアが積極的に初心者へ推薦する中国系の拡散モデルには、やはり色々な点で問題があると思っていて、全く問題がないわけではないとしても、ここ最近のモデルの中ではドイツの Black Forest Labs の FLUX.2 シリーズを選択したい。そもそもドイツ企業であるから、GDPR をはじめとしてアメリカや中国、そしてもちろん日本に比べるとはるかに強力な規制のもとでモデルを開発しているため、実際に使ってみるとわかることだが、GPT や Nano Banana などに比べて、制作スタジオやアニメ作家らの具体的な名前だけでジブリや新海誠のキャラクターを描写するなんてことはできないようになっている。
なお、どうして FLUX.2 でも全く問題がないわけではないかというと、FLUX.2 でもテキスト・エンコーダに Qwen3 という中国企業のモデルを採用しているからだ。これは、Mistral など他の企業が開発したモデルで代用できるとは言われているが、Mistral のモデルはどれもファイル・サイズが巨大で、僕のマシンでは動かせない(テキスト・エンコーダは拡散モデルにマッチするための条件がシビアなので、8ビットなどへ量子化したテキスト・エンコーダを8ビットのモデルに当てても FLUX.2 は動かない)。