Scribble at 2024-12-09 10:37:43 Last modified: unmodified
AUSTIN, Texas — Using generative artificial intelligence, a team of researchers at The University of Texas at Austin has converted sounds from audio recordings into street-view images. The visual accuracy of these generated images demonstrates that machines can replicate human connection between audio and visual perception of environments.
屋外で録音した音響データから、その場の環境を画像として生成する AI のアルゴリズムが紹介されている。もちろん、録音されていないものは描きようがないのだから「復元」とは言えないだろうが、それでも音を出している何かは特定されて描かれるわけだから、不完全ではあっても音が収録された場所を特定できるだけの精度を達成する可能性はある。つまり、音声データだけで場所を特定されてしまう可能性があるということなので、使い方によってはプライバシー侵害となろう。
或る地点で録音すると、周囲の環境によってどういう音源があるかを既存のマップ情報から割り当てて推論できるため、いったんこういうアルゴリズムが出来上がると、仮説として地球上のあらゆる地点で録音したと仮定するようなデータベースが勝手に完成されてしまう。そして、今度は現実の録音データを集めていって、最初に作ったデータベースの事前確率をベイズ的にどんどん補正していけば、僅かなサンプリングでも事後確率を簡単に、そして世界中の地点について引き上げられるから、精度はみるみるうちに上がっていくだろう。