Scribble at 2026-03-16 14:46:53 Last modified: unmodified
[Gemini による要約] これまでマシンアンラーニング(machine unlearning https://en.wikipedia.org/wiki/Machine_unlearning)の分野では、主にテキストプロンプトを使って特定の概念を消去することに注力してきました 。しかし、個人の顔や、歴史的な人物の誤った描写(例えばクセルクセスが紫色で描かれるなど)、あるいは国旗の細かな間違いといったものは、プロンプトで特定して消去するのが難しい「プロンプト化不可能な(unpromptable)」対象であることが課題でした 。この論文で提案されているプロンプトフリー個体消去(prompt-free instance unlearning)は、プロンプトに頼らずに特定のターゲットだけを選択的に忘れさせ、モデルの健全性(model integrity)を維持することを目指しています 。具体的な手法としては、まず既存の画像編集ツールを使ってターゲット画像の正体を微妙に変えた代理例(surrogate examples)を作成します 。そして、拡散プロセスのタイムステップに応じて損失の重みを調整するタイムステップ考慮型重み付け(timestep-aware weighting)である $\lambda(t) = 1 - \beta t$ や、忘却と保持の勾配が衝突するのを防ぐ勾配手術(gradient surgery)を組み合わせてモデルを微調整します 。実験では、ステーブルディフュージョン3(stable diffusion 3)やDDPMといったモデルを使って、既存の手法よりも高い精度で特定の対象を消去しつつ、他の画像生成への悪影響を最小限に抑えられることが示されました 。これはプライバシー保護や、EU一般データ保護規則(general data protection regulation https://en.wikipedia.org/wiki/General_Data_Protection_Regulation)で定められている「忘れられる権利」への対応、さらには倫理的なコンプライアンスを確保するための実用的で即時性のある修正(hotfix)として期待されています 。
いちどトレーニングした拡散モデルから、特定の図像だけを消去するというのは困難であった。実際、或る画像生成 AI のモデルから宮崎アニメだけを削除(unlearning)しようとしても、従来のプロンプトを組み合わせるという力業の手法では限界があった。いちばん初歩的な手法だと、もちろん negative prompt を重複して学習させることにより、"in style of studio ghibli" などをネガティブな効果に設定するということが考えられる。しかし、こんなことだけでスタジオ・ジブリの作品が(不幸なことに既に学習してしまっている)拡散モデルで描かれないようにできるかというと、そんなことはない。たとえば、こんな単純な negative prompt しか追加で学習させていないなら、単に "in style of Miyazaki Hayao" などと入れるだけで、宮崎アニメの作品に登場するキャラは出てこなくても、宮崎駿氏が原画を描いたかのようなイラストはいくらでも出てくる可能性がある。そして、更に宮崎アニメのキャラの名前や関係者の氏名を追加して抑制したとしても、学習で使われてしまった画像に対するメタ・データとして関連づけされた他のあらゆるキーワードを使って、宮崎アニメの「こんなキーワードのセットで描かれるシーンに最も近いイメージ」を拡散モデルから引っ張り出すだけでも、それに付随する宮崎アニメのキャラや描画スタイルが再現されてしまう可能性が残る。すごく極端なことを言うなら、或る宮崎アニメでトトロとサツキたちが雨の中をバス停で佇んでいる有名なシーンに割り当てられたキーワードの中に "scene" という単語があるとき、あくまでも確率の話だが "scene" というキーワードだけのプロンプトで同じシーンが描かれてしまう可能性だってある。だが、これをキーワードとして禁止すれば、このモデルは風景を殆ど描写できなくなってしまうかもしれない。
これに対して、上の論文が提案している prompt-free な unlearning では、消したい画像を編集して追加学習用の教材とし、ディープ・ラーニングの学習過程で加味される重みづけを調整しながら、特定の画像を「早く忘れるようにする」という手法を採用している。拡散モデルで画像を生成するときは、一定のステップ数を経て画像をノイズからどんどん目当てのイメージにしていく(思い出す)のだが、このステップ数が少なすぎるとノイズから殆ど変わっていない(思い出せていない)出来損ないの画像になる。そして、この論文で提案されている手法を使うと、目的の画像を出すときにはステップの少ない段階で「忘れてしまう」ようにするという。こうすれば、実質的に目当ての画像を出せなくなるも同然というわけだ。
これは、もちろん、上の要約でも EU の GDPR といったプライバシー関連の規制が関連付けされているように、ちょうど僕らが実務でもかかわっている個人データの匿名化アルゴリズムの話に似ている。情報としては、僕らはもちろん個人データを業務で保持しているのだけれど、そこから何らかの利用目的で情報を匿名で取り出そうとするときに、個人を特定できるような属性を differential privacy などをはじめとする数学的な手法で推定不能にしてしまうという点で似ているとも言える。