Scribble at 2026-05-10 10:36:01 Last modified: 2026-05-10 15:26:12
[Gemini による概要] この論文は、人間が大規模言語モデルに長期間の作業を委任(delegation)した際に、文書の内容がどのように劣化していくかを調査したものです。研究チームは、コーディングや結晶学、楽譜作成など52の専門的なドメインにわたる310の作業環境を含む新しいベンチマーク「DELEGATE-52」を構築し、19種類のモデルを評価しました。この研究の核心は、編集作業を繰り返すうちに、モデルが文書内にわずかではあるものの深刻なエラーを混入させ、それがサイレントに蓄積していくという点にあります。
これは、僕も実感がある。NotebookLM に100を超える論説や書籍やウェブ・ページを「ソース」として登録し、既存の社内規程を JIS Q 15001:2023 の最新規格へ対応させるべく改定する作業を進めているのだけれど、規程文書(全体ではテキスト・ファイルとして 50 kB ていど)を何度か推敲させているうちに、だんだん用語の表記揺れが酷くなったり、いちど整理した文書を再びバラバラにしたり省略したりするし、逆に個人情報保護法の観点からはありえないような文言の修正を加えたり、色々な問題が逆に増えていくのだ。それゆえ、僕のようなレベルの Chief Privacy Officer とまではいかなくても、それなりに法令や JIS を理解していて十分な経験と実績がある(具体的にはプライバシーマーク制度への貢献を組織として表彰される7回の更新を済ませている)人材によって supervise されなくていけない。
弊部で今期の目標として進めている「AI ガバナンス・ポリシー」の起案においても NotebookLM は活用しているが、もちろん同じようなことになるという前提で対応するつもりだ。というか、そもそも AI の利用や開発に関するポリシーを AI に起案させたり supervise させるなんてのは、いくら機械のやることだから「保身」なんて考えないだろうという前提があろうと、およそ信用しかねる。なぜなら、AI には国家官僚のように保身を求める動機付けというものはないけれど(科学哲学としてガチの話をするが、AI について動機を議論しうる自意識なんて想定できるわけないからだ。それは、チロルチョコレートやポリ袋に自尊心や葛藤があるかどうかを議論するようなものだ)、外形的ないし現象論として保身のような振る舞いに見える反応のパターンをもちうるからだ。
さて、上の論文で報告されている結果を説明すると、実験の結果、現在の最先端モデルであっても、わずか20回のやり取りの後に文書内容の平均25%を損なうことが明らかになったという。具体的には、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 といったトップクラスのモデルでもこの傾向は避けられず、全モデルの平均では50%もの劣化が確認された。興味深いことに、この劣化は少しずつの積み重ねではなく、一回のやり取りでスコアが10ポイント以上急落するような致命的失敗によって引き起こされており、これが劣化全体の約80%を占めている。性能の低いモデルは内容を削除してしまう傾向が強いのに対し、高性能なモデルは内容を誤って書き換える変質を起こしやすいという特徴もあった。
モデルのパフォーマンスはドメインによって大きく異なり、特に Python などのプログラミング領域では多くのモデルが劣化のない操作に成功しているという。実際に、Claude を利用した実績は既に多く知られている。しかし、自然言語による記述やニッチな専門分野(収支報告書や楽譜など)では公にするほどの大きな実績がなく、Gemini 3.1 Proですら良質な反応が得られると判断されたのは52ドメイン中で11ドメインに留まる。また、文書のサイズが大きくなったり、無関係なファイルがコンテキスト・ウィンドウに含まれたりすると劣化はさらに加速する。特筆すべきは、エージェントとしての運用、つまり自動処理が、今回の複雑なタスクにおいては性能を平均で6%も低下させたという結果だ。これは、エージェントとして利用する際に、個別のやりとりに加えてエージェントとして自動処理を実行させるために追加する入力トークンの増加や、不必要なファイル書き込みがエラーのリスクを高めたためと考えられている。
こういう結果を見ると、ではここ数年のあいだにウインドウ・サイズがどんどん増えていっているように見える発表が各社から出ているのは、いったいどういうことなのだろうか。まるで、「東大クイズ研究会」とか「東大司法試験勉強会」みたいなもののメンバーだからといって、学術研究者や企業人としても優秀であるとは限らないという、大人になれば誰もが常識的に弁える社会経験すら生成 AI には期待できないということなのではないのか。こんなことは、新井氏のような数学者が AI を DIS るよりも遥かに前から誰もが知っていたことであり、機械的な記憶の量だけで人の業績や学術研究の成果、なかんずく生活している中で生み出されるあれこれが生まれるわけではないという当たり前の事実を示しているだけに思える。それは、かなり荒い言い方をすると、現代の生成 AI はトレーニングのやりなおしだとか、あるいは新しいデータ・セットやアルゴリズムを使った新規トレーニングはしているわけだが、そもそもそれは「成長」や「反省」ではないということだ。これが問題の本質に思える。そして、そのていどに留まっている限り、やはり生成 AI はヒトの知性とは別の何かとして活用するのが正しいのであって、ヒトの代わりは言うまでもなく、そもそも現状のやりかたで人工知能が人の知性を目指すとかシミュレートするなんてことを言ったところで徒労でしかないと思う。何度もここでは書いているが、人工知能はヒトとは別の「知能」としての向上や洗練を目指せばいいのであって、ヒトなんていう欠陥動物の脳みそをモデルにしたり目標にするべきではないのだ。