Scribble at 2024-12-27 18:05:44 Last modified: 2024-12-29 08:46:19

添付画像 — 広がるAI使った性的偽画像被害、狙われる卒アルの個人写真　載せない学校増える可能性も

まず・・・些末な話だけど、こんないちいち「卒業アルバム（卒アル）」とか断ってまで、なんで略称を使う必要があるんだろう。ウェブの記事は新聞記事とは違って文字数制限のあるレイアウトじゃないだろうに。ちゃんと最初から最後まで、卒業アルバムは「卒業アルバム」と表記して何の問題があるんだろう。それとも大手の新聞って、ほんとに記事を下請けに丸投げするのが常態になっていて、文字数で請求されてるから可能な限り略称を使えとか要求してるんだろうか。ここでは何度も言ってるけど、コミュニケーション論やマス・メディア論の学位すらもってない素人集団の仕事として、アホ丸出しだから止めたほうがいいぜ。

さて記事の話題だが、昨年の夏から大量の画像を生成 AI で作ってる一人としてコメントさせてもらう。僕も自分自身の似姿を生成するために、LoRA (Low-Rank Adaptation) という技術を使った小サイズの追加用データをトレーニングして分かったことなのだが、実は学習用のデータとして用意する画像は１枚だけでもいいのだ。よく、生成 AI について記事を書いているメディアやブログなどでは、オリジナルのキャラクターの LoRA をトレーニングするためには20～30枚の画像を用意せよと書かれている。これは実際に、その程度の画像を用意すれば相当な再現度のある画像を生成できることは知っているので、正しい。だが、その枚数に足りない場合の対策として説明されている「生成画像によるトレーニング画像の水増し」は、はっきり言ってデタラメである。したがって、学習用のデータとして画像が１枚しかなければ、その１枚で LoRA を作り、そして大量の画像を生成する方が、皮肉なことに再現度の高い画像が出てくるのだ。よって、本人が写っている画像がたくさんあればそれに越したことはないが、１枚しかないからといって、それをもとに作った LoRA で生成した画像の中から似てる画像を使って再び LoRA を作っても、それを再帰的に繰り返していったところで再現度は上がらないのである。僕の実験では、寧ろどんどん再現性は落ちていった。

これは LoRA をつくるときに使う「ベースモデル」に最初から特定のキャラクターの顔の特性が設定されているからだ。つまり、LoRA を使って生成された画像は、どれほど当人に似ていても一定の割合でトレーニングに使ったベースモデルの顔の特性が加味されており、したがって生成した画像を学習データとして使うと、ベースモデルのもつ特性が積み重なっていくこととなるので、似せようとする人物の顔の特性がどんどん相対的に弱くなっていくからだ。

つまり、たった１枚の顔写真でも大量に出力すれば再現度の高い画像が出てくるので、時間とコストに拘りがなければ数をこなすだけで遅かれ早かれディープ・フェイクの画像は出来てしまうのだ。ただ、だからといって卒業アルバムから写真を取り除いたところで有効な対策にはなるまい。既に報道されているように、目当ての人物の写真がほしければいくらでもスマートフォンで撮影できるからだ。昨今はスマートフォンのカメラでも望遠で撮影できるものがあるし、アタッチメント式に取り付けられる望遠レンズもあるから、盗撮はかなり簡単だろう。

恐らくは学校で特別授業を開催し、警察に依頼して法令や人権の話などを生徒、教師、保護者に聞かせることが一つの対策にはなるが、実質的に盗撮を不可能にしたいと考える妙な学校や保護者が出てこないとも限らない。そうなると、たとえば女子生徒は外出するときにフル・ヘルメットの着用を義務付けるか、あるいは濃い色のヴェールを着用させることになるだろう。イスラム教の国でもないのに、女性が外出時に顔を隠すような国になるわけだが、まぁ国家レベルの恥としか言いようがないな。

冒頭に戻る