Scribble at 2026-03-16 14:46:53 Last modified: unmodified

添付画像 — Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

いちどトレーニングした拡散モデルから、特定の図像だけを消去するというのは困難であった。実際、或る画像生成 AI のモデルから宮崎アニメだけを削除（unlearning）しようとしても、従来のプロンプトを組み合わせるという力業の手法では限界があった。いちばん初歩的な手法だと、もちろん negative prompt を重複して学習させることにより、"in style of studio ghibli" などをネガティブな効果に設定するということが考えられる。しかし、こんなことだけでスタジオ・ジブリの作品が（不幸なことに既に学習してしまっている）拡散モデルで描かれないようにできるかというと、そんなことはない。たとえば、こんな単純な negative prompt しか追加で学習させていないなら、単に "in style of Miyazaki Hayao" などと入れるだけで、宮崎アニメの作品に登場するキャラは出てこなくても、宮崎駿氏が原画を描いたかのようなイラストはいくらでも出てくる可能性がある。そして、更に宮崎アニメのキャラの名前や関係者の氏名を追加して抑制したとしても、学習で使われてしまった画像に対するメタ・データとして関連づけされた他のあらゆるキーワードを使って、宮崎アニメの「こんなキーワードのセットで描かれるシーンに最も近いイメージ」を拡散モデルから引っ張り出すだけでも、それに付随する宮崎アニメのキャラや描画スタイルが再現されてしまう可能性が残る。すごく極端なことを言うなら、或る宮崎アニメでトトロとサツキたちが雨の中をバス停で佇んでいる有名なシーンに割り当てられたキーワードの中に "scene" という単語があるとき、あくまでも確率の話だが "scene" というキーワードだけのプロンプトで同じシーンが描かれてしまう可能性だってある。だが、これをキーワードとして禁止すれば、このモデルは風景を殆ど描写できなくなってしまうかもしれない。

これに対して、上の論文が提案している prompt-free な unlearning では、消したい画像を編集して追加学習用の教材とし、ディープ・ラーニングの学習過程で加味される重みづけを調整しながら、特定の画像を「早く忘れるようにする」という手法を採用している。拡散モデルで画像を生成するときは、一定のステップ数を経て画像をノイズからどんどん目当てのイメージにしていく（思い出す）のだが、このステップ数が少なすぎるとノイズから殆ど変わっていない（思い出せていない）出来損ないの画像になる。そして、この論文で提案されている手法を使うと、目的の画像を出すときにはステップの少ない段階で「忘れてしまう」ようにするという。こうすれば、実質的に目当ての画像を出せなくなるも同然というわけだ。

これは、もちろん、上の要約でも EU の GDPR といったプライバシー関連の規制が関連付けされているように、ちょうど僕らが実務でもかかわっている個人データの匿名化アルゴリズムの話に似ている。情報としては、僕らはもちろん個人データを業務で保持しているのだけれど、そこから何らかの利用目的で情報を匿名で取り出そうとするときに、個人を特定できるような属性を differential privacy などをはじめとする数学的な手法で推定不能にしてしまうという点で似ているとも言える。

冒頭に戻る