Scribble at 2024-10-25 13:00:26 Last modified: unmodified

添付画像

Latent Couple extension (two shot diffusion port)

Stable Diffusion Web UI には数多くの拡張機能(extensions)が公開されていて、顔認識アルゴリズムを応用して顔や目だけを綺麗に描くものとか、出力した画像を精細化してくれるものなど、多岐にわたっている。スマートフォンのアプリケーションで2年くらい前に流行った、古い写真やピンボケ写真を綺麗にできるという宣伝で雨後の竹の子みたいに続々とリリースされたものは、要するにこういう技術の応用であって、画像にしろテキストにしろ音声にしろ動画にしろ、だいたい僕らが自宅のパソコンで扱えるようになるのは、arXiv とかにプレプリントとして公表された論文が出てから5年くらい後になる。ただ、このところは論文が公開されるタイミングで実装すら終わっているという場合もあって、特に R&D でリリースした論文では特許の関係で実装できてないと意味がないから、理論から実用化までのスピードがどんどん短縮されている実感がある。

なので、こういう状況では、一般的なソフトウェアやアプリケーションでも言えることだが、常に後回しになってしまうのが documentation である。これは UNIX の時代から言われていたことだし、もちろん昔から技術者の多くは解説や説明に関心がないしスキルもない人が多い(なので、自分が専門とする分野で自分が得た成果についての論文すら不適切に書いている場合も多い)。したがって、少しパフォーマンスや文章が上手いと、アメリカでもスティーヴン・ピンカーを初めとする「啓蒙家」と呼ぶべき人々のように、イデオロギーはともかくマスコミや出版業界から引っ張りだこになるわけだ。

ということで、Stable Diffusion に関しても、実はそう十分な解説が揃っているわけではないし、いま書店に並んでいる解説本にしても、デザイナーとして、それから機械学習としても、どれほどの知見や学識やプロとしての経験があるのかも不明な、はっきり言って生成 AI で遊びまくる時間があって詳しいというだけの人物が書いていることが多く、アートとしても情報理論としても非常に底の浅い説明が多いし、そもそも Stable Diffusion 関連の開発者の情報を丁寧に調べているというよりも、海外の同じようなアマチュアがブログなどに書いている内容を機械翻訳で適当に眺めているだけではないかという気がしている。

その典型として、たとえば Latent Couple という拡張機能の解説を取り上げておこう。これは、簡単に言うと画像を出力する際にプロンプトを適用する矩形の領域を分割できるもので、ウェイトも一緒に配分できる。原則として領域を分割するパラメータを「分割方法」「位置指定」「ウェイト」の三つで設定するだけで使えるので、服装の色だけを変えた女の子を横にいくつか領域を分割して並べると、添付した画面で上の画像が示すように5人の女の子が指定したとおりの色の服装で並ぶ。使いようによっては面白いのだろう。

でも、暫く使ってみたけれど結局は削除した。実際、優れた品質の画像を Civitai.com などに公開している人々のテクニックを調べると、こういう拡張機能を使って場所ごとにプロンプトを適用しているという人は、まずいない(Latent Couple を使うとプロンプトの記法が特殊なので、すぐに分かる)。おそらく、サイトの管理者がユーザが勝手に主催するコンテストなどで上位に入る人たちだけではなく、それ以外のユーザを含めても、Latent Couple を使ってローカルで出力した画像をアップロードしている人は、ほぼゼロだと思う(Civitai.com はオンラインでの出力サービスも提供しているが、高品質な画像をアップロードしている人は、たいてい自分のマシンか他のクラウド・サービスで自力で画像を出力しているものだ)。

Latent Couple のドキュメントという話題だが、そもそもこの拡張機能が面白いだけの「ネタ用」であって、あまり本格的な画像の出力に使えない理由は、まず画像の品質が悪すぎるからだ。どうやら分割した個々の領域では Stable Diffusion Web UI の制約とは別に(Web UI ではトークン数の限界は無い)、一つの領域ごとに74トークンまでしかキーワードを使えないという限界があるらしく、正直なところ74トークンなんかではロクな品質の物体を描けない。なので、Latent Couple を解説しているウェブ・ページの多くは、何人かの人物を並べた画像を出力事例として紹介しているが、はっきり言ってどれもこれもガラクタみたいな画質の画像ばかりだ。そして、たいてい目が死んだ魚みたいになっているので、ADetailer を使っていないが、もしくは Latent Couple で ADetailer を使うと逆に悪い効果があるのだろう。事実、ADetailer を使うと、上の添付した画像で下のような崩壊した画像が出やすいのは事実だ。

そしてドキュメントの話題に戻ると、Latent Couple では「AND キーワード」という特殊なキーワードが必須なのだが、これの説明をしないページがあって、おそらく特殊なキーワードであることが分かっていなくて他人のページを見様見真似でコピペしているブログなのだろう。実際、Stable Diffusion 関連ではグラフィック・カードの商品ページや程度の低い電子書籍の販売ページに誘導するアフィリエイトのブログも一昨年から大量に発生したので(もちろん、無料で無限にエロ画像を出力できるということが男の子たちにわかっちゃったからだね!)、全く生成 AI を使ったことすら無い WELQ レベルの学生バイトなどが、そういう出鱈目なブログを大量に作ったわけで、たぶん生成 AI 関連のブログとか「メディア」を自称しているサイトの 99% は出鱈目か無教養な連中が書いている。実際、AND キーワードは uppercase が必須であるにもかかわらず、lowercase で解説しているページも多々ある。また、サンプリング方法の中には AND キーワードが使えないものがあるという重要な情報も書いてないページが多い。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る