Scribble at 2024-01-22 12:41:15 Last modified: unmodified
生成 AI で出力した画像がやみくもに画像検索のデータとして続々と蓄積されている。ここに大きな問題があるのは明白だと思う。これは、実際に昨年の夏から生成 AI で数百万枚の画像を出してきた経験から言っても、実感として言えることだ。そもそも、生成 AI が出力する大半の画像は、「クソ」だ。顔が潰れていたり、風景の色がメチャクチャだったり、それこそ指が7本とか顔が無いとか首が180度も回転してるとか、世に出すようなものではない。しかし、Microsoft Image Creator で出力した画像は出来栄えがどうであろうと勝手に蓄積されるし、Civitai.com のようなカタログ・サイトで適当にサンプルとして出力された画像も、どれほどデタラメなプロンプトで適当に出力されたゴミでも「作品」としてエントリーされるため、どんどん検索エンジンのロボットがスクレイピングしてしまう。正直、現状はまともなデータよりもゴミが大量に積み重なってきていて、それをデータなりリソースと称して貯め込んでいる状況だろう。ということは、簡単な推論だが、何らかの検索をした結果も大量のゴミしか出てこなくなるわけである。
これに加えて、作品をサンプルやポートフォリオとして掲載しているプロのデザイナーやイラストレーターといったクリエイターは、スクレイピングに対抗する手立てを採用しつつある。もともと、AI だろうと検索エンジンだろうと一般のビジターだろうと、サイトにアクセスしてきた人やロボットが画像を勝手にダウンロードしたりスクレイピングしないように、robots.txt やら右クリック禁止のスクリプトやらを使ってきたわけだが、これに加えて Nightshade のような分散モデルのトレーニングを混乱させる特徴をもつ画像を、スクレイピングでわざと学習させるという対抗手段を取ったりできる(もちろん、これは AI 企業に対する業務妨害でもなんでもない)。手間はかかるが、そういうことも考慮していいと思う。PDF でもテキストを簡単にはコピペされないようにするためなのか、テキストを選択しようとすると、アイ・ビームがテキストではなく画面全体を選択してしまうという妙な挙動を示すことがあるけれど。あれは官僚が PDF ファイルすらまともに出力できないバカなのか、コピペできないようわざとやっているのかは分からないが、一つのヒントにはなる。ただし、もちろんだが、わざとやっているなら情報公開法違反の疑いがある。