Scribble at 2025-04-19 18:27:53 Last modified: unmodified
親ロシア的なプロパガンダを拡散するネットワークのコンテンツがWikipediaなどのソースとして利用されることで、Wikipediaを学習するAIがロシアのプロパガンダを広めてしまっていると、偽情報調査団体が報告しました。
Wikipedia 経由でロシアの偽情報に汚染されているという話だが、そもそも Gemini を使ってると日本語でのやりとりにロシア語が交じるんだよね。中国語なら、まだ同じ漢字文化圏ということで混在するのも分かるけど、キリル文字が漢字ましてやカタカナなどと間違われて学習されるなんてことはありえない。なので、Gemini は・・・というよりもパブリックなサービスとしてエンド・ユーザの入力を、まさしく「入力」として追加学習のデータに利用している AI なら何であれ、色々な意味で汚染されていると考えていいはずなんだよね。
もちろん、Huggingface などで公開されているローカル・マシンで動かす拡散モデルにしても、そもそもトレーニングの時点で汚染されているデータを教師にしている可能性があるので、生成 AI であれば原則として例外なく一定の汚染はあると思う。そうでなくても、ウェブのコンテンツをデータの基礎にしてる時点で、世界中の人々が書いてる文章を学習してるわけだから、いかにベイズ的に取捨選択していようと、一定の割合で馬鹿や無能が書いた文章の影響は残る。