Scribble at 2025-09-08 10:36:48 Last modified: 2025-09-08 10:56:03

添付画像

画像生成 AI のパラメータというのは色々とあって、フロント・エンドによって設定できる項目が違っている場合もある。それゆえ、一般論として議論する場合には、たとえばサンプリング法(sampling method)やシード(seed)や CFG スケール(classifier free guidance scale)などという、多くのフロント・エンドでサポートされている項目を紹介し、解説することが多い。

特に写実的(photorealistic)な画像をつくりたい場合に注意すべきなのは、こういうパラメータをベース・モデルごとに丁寧に調整して、最適な値の範囲を知っておくことだ。アニメや漫画調の画像だと、いわゆる「塗り」と呼ばれる特性があって、パラメータを広い範囲で変更しても、絵の特徴が極端に変わってしまうことはないくらいの高い閾値があるため、逆に言えばパラメータを大きく変えても「アニメ塗り」と呼ばれるフラットな画質は変わらないので、見た目に殆ど変化がなかったりする。でも、写実的な画像の場合は、その変化が画質に現れやすく、つまりは画質が変わるための閾値が低く sensitive であるため、適切なパラメータを設定しないと、見た目が極端に変わってしまい、それは「良いこと」であるとは限らないわけである。

上に掲載している画像は、SDXL をファイン・チューニングして制作された "Juggernaut XL" というベース・モデルを使っている。制作者から推奨されている設定というものがあり、推奨された設定内容から外れると意図しないテイストや構図の画像が出来やすく、つまりは描写が破綻しやすくなるとされている。人物の場合は腕が3本になったり、胴体から首が二つ出ていたりということが起きやすくなるし、風景の場合は遠近法からいってありえない描写になりやすい。上の実例でも、2艘の小舟のサイズがアンバランスだし(奥、つまり遠方にあるはずの小舟の方がデカい)、水面に映っている雲の形が上空の雲の形とぜんぜん違っている。また、水辺に、茎の途中から花が咲くという種類の植物が生えているのも不自然であろう。周囲の木の生え方にも遠近法から言って違和感があるし、何らかの意図があって描かれた絵画としてはともかく、およそ「写実的」な画像とは言えない。でも、このくらいの出来栄えであれば表面的には「キレイな画像」には見えるため、最近は駅の構内で広告を掲示する箇所のダミーとして、このレベルの画像が使われていたりする。少なくとも僕が利用している Osaka Metro の駅には、こういう低劣な生成 AI の画像が幾つかあって、見かけるたびに失笑する習慣ができてしまった。いや、それどころか広告として掲載されている、入稿された素材にすら、こういう品質のイラストや写実風の画像が多くなっていて、特に行政機関、学校・予備校・塾の広告ではコストを削減する問答無用の手法であるかのように使われているようなのだが、プロンプトだけで解決できないことくらいはわきまえて、後工程としてデザイナーが手を加えるということすらなくなりつつあるのだろう。それは、一般の消費者が見かけ倒しの「ビジュアル・デザイン」というものに、実はさほど関心も注意も払っていなかったという実態が、あらためてはっきりしただけのことではあるまいかとすら思う。もともとどうだっていいことであるからこそ、それが専門職のイラストであろうと生成 AI の吐き出した画像であろうと構わないわけである。僕は、いま生成 AI に対して文句を言っているイラストレータやデザイナー、つまりはクリエイターには気の毒なことを言うようだが、こういう状況をつくった原因は諸君(もちろん、アート・ディレクターなどと称する連中も含めて)にあると思っている。プロダクトのプレゼンテーション手法や設計手法の一部であるビジュアル・デザインの何であるか、その是非の適正な基準がなんであるかを殆ど考えず検討もせずに、ただの見かけの美しさやインパクトだけで飯を食ってきた報いだと言いたい。

ちなみにだが、僕は写実的な画像をつくるときに、こういう正方形となるような設定は使わない。理由は、この画像を見ても分かるように、生成 AI の特性としてフレームの中で描写を完結させようとしてしまう傾向があって、フレームの外に何かがあるという前提で描こうとしないからだ。簡単に言えば、曼荼羅のように、プロンプトによって指定された、描写するべき要素を詰め込もうとするクセのようなものがある。これも、僕は広い意味での「フレーム問題」だと思っていて、まさに「フレーム」に関わる AI の特徴あるいは限界なのだろうと思う。枠の外にはもっと広い世界があって、画像はそれをフレーミングしているだけなのだという、AI にこんな言葉を使うのは不適切かもしれないが、「自覚」のようなものがないわけである。そして、画像を正方形に生成させると、こういう傾向が更に強くなってしまい、いわば箱庭を描いたような画像ばかり出てくる。

それから、Juggernaut XL の SDXL Lightning 版という、少ないサンプリング・ステップでノイズを低減しつつ結果を収束させて画像を生成するモデルでは、推奨されているステップ数が 4 - 6 の範囲になっていて、僕はだいたい 4 か 5 を設定している。6 でも確かにまとまった画像を生成できるのだが、サンプリング・ステップを増やすと、いわゆる「描きこみ」が増えるとされていて、これが過剰になると逆に不自然な描写になってしまう。描きこみは個々の物体の精細度とは違うので、何かが1個だけ描かれている場所に2個や3個を描こうとする。つまり、物体が過剰に詰め込まれてたくさん描かれてしまい、テーブルに1個だけ置いてあるリンゴの描写から、そのリンゴと同じ範囲に小さいリンゴをたくさん描いてしまうといった描写になるので、そういう手法の画家もいるにはいるが、たいていは不自然な絵となる。また、物体の輪郭の描き方が妙に丸くなる傾向があって、写実的な画像のはずがイラストっぽくなってしまうという問題も起きる。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る