Scribble at 2026-02-19 15:22:29 Last modified: 2026-02-20 11:42:15

添付画像

これは、もう16年も前のことだが、bloggingheads.tv という対談のビデオを公開しているサイトで、"Science Saturday" という企画があった。そこで、Eliezer Yudkowsky と Massimo Pigliucci が対談していて、もちろんテーマは (technological) singularity である。それなりに取り上げるだけの値打ちがあると思って対話を訳そうと手を付けたこともあったのだけれど、やはりそれなりに分量があって頓挫していた。そこで、Gemini に手伝ってもらうこととしたわけである。

しかし、数分ほどやりとりを繰り返して無理だと分かった。理由は、第一に対談の MP3 ファイルをアップロードして正確に発言内容を翻訳してくれと命じても、まったく異なる内容になってしまう。弁解させると、他の似たような対談の内容を混ぜてしまったらしいのだが、そんなことを命じたわけでもないのに、正確な作業ができないというのは困る。そういうことで、第二に翻訳ではなくひとまず transcript を命じてみても、これもまた正確に音声データを抜き出せていない。実際、抜き出したテキストを見ながら音声を聴いているので、すぐに分かる。そもそも第一声から、ユドコウスキーが話しているのにピグリウーチの発言として抜き出していて、音声データを正しく扱ってすらいないことがわかる。

そういうわけなので、もちろんこれだけで Gemini が信用に値しないと結論するわけではないにしても、用途を分けて使わないと危ないことは分かる。OCR や書き出しには、それ専用のサービスなり機能を使わないといけない。

[追記：2026-02-20] この件は、Gemini 自身に代案を出させて、Google AI Studio の機能で正確な文字起こしができると知って、試してみた。なるほど、結果は良好だった。ただ、blogginghead.tv のコンテンツは Creative Commons でもなんでもないので、勝手に transcript を公開したりできないから、あくまでもプライベートに使うだけだ。

冒頭に戻る