Scribble at 2026-05-07 12:44:17 Last modified: 2026-05-07 12:48:26
5年前の論文だが、diffusion model への発展を知るうえで興味深い。
ひところ、とは言っても多くの人にとっては「最近」の範囲になる2019年から2022年くらいまでの3年間なのだが、"Waifu Labs" というオンライン・サービスが流行していた。それまでは、アバターやアイコンを作るオンライン・サービスとして着せ替え人形のようなものが流行っていたわけだが、この "Waifu Labs" では美少女キャラ(後に美男子キャラも追加された)のアイコンを、ランダムに描写された顔や髪の色のバリエーションについて何ステップかの選択を経て完成できるという仕組みで、或る種の「ガチャ要素」も加わったゲームのようなものとしても受けたのだろうと言われている。
また同じ頃に流行したのが、"thispersondoesnotexist.com" というサイトで、これは実在しない(と言っているだけだが)人物の高精細な顔写真をランダムに生成するサービスだった(ちなみに、いまだにこのサイトの作者を "GANN" などと書いて "GAN" が名前に含まれているのが面白いとか的外れなコメントを書いている人たちがいるようだが、ソースくらいきちんと調べましょう。なお、このサイトの作者である Philip Wang ・・・もちろん "GANN" なんて名前ではない・・・は、当時は Uber のソフトウェア・エンジニアだったようだが、現在の状況は分からない。同姓同名と思われる人物がいるみたいなので、確たる事は言えない)。もともとは、このような技術を使ったディープ・フェイクへの警鐘を鳴らすために立ち上げたサイトだったようだが、皮肉なことに、このサービスを使って生成した画像を出会い系サイトで偽のプロフィール写真として使う人が続々と出てきたという。
これらのシステムで利用されていたのが「敵対的生成ネットワーク(GANs)」と呼ばれるアルゴリズムであり、二つの対立する目的を設定されたネットワークどうしが自らの生成・識別基準を洗練させようとすることで品質が向上したり、目的の画像などを描写できるようにするというものだ。それこそ、いっときは GANs について解説するブログ記事や雑誌記事などが続々と現れたり、書籍も幾つか出ていた記憶がある。しかし、既にご承知のとおり、そのプチ・ブームというべき状況が一気に変わってしまい、いまでは GANs について語る人は殆どいなくなってしまった。もちろん、"diffusion model" の実装である Stable Diffusion がオープン・ウェイト(一般公開のモデル)としてリリースされたからだ。
GANs には、もともと幾つかの弱点なり限界が指摘されていた。それが、「勾配消失」と「モード崩壊」だった。
勾配の消失とは、ニューラル・ネットワークの学習で利用している誤差逆伝播法(backpropagation)という手法が微分の掛け合わせになっているため、学習の初期では微分(つまり valid / invalid の判定を学習できた度合いという勾配のことでもある)が全ての層において0に近い値となるため、1以下の値を掛け合わせたら幾らでも0に近くなるのだから、これはつまり実質的に学習が全く行われなくなることを指している。学習率が0.1だと層が10層あるだけで0.0000000001という学習率になってしまい、コンピュータで扱える値としては殆どゼロと同じことになってしまうのだ。それから、GANs の特性として生成器 (generator) と判別器 (discriminator) との敵対として動かしているため、或る生成結果が判別器の判定を騙せたら、生成器は同じ結果を何度でも生成するようになり、つまるところ生成結果がワンパターンに陥りやすい。これを「モードの崩壊」と呼んでいる。もちろんだが、これらの弱点を回避したり上回るような調整とか異なる仕組みが色々と提案されて、数多くの成果が出ているけれど、diffusion model が一気に GANs の制約や限界を超えてしまったと言われている。