Scribble at 2026-05-29 15:42:48 Last modified: 2026-05-31 09:04:47

添付画像 — 67% of real fact-checks, top AI models don't agree on the answer.

最新の大規模言語モデルは、fact-check に対して 67 % で互いに結論が一致しないという興味深い結果が出ている。"Lenz" という fact-check のプラットフォームに投稿された1,000件の実ユーザーの主張にもとづく報告だ。それによると、67 % の主張でモデル間に不一致が発生しており、５モデルで全て一致した事例は 33 % のみだという。更に、二つ以上のモデルが異なる結論を出すケースが 45 % もあったという。考えられる原因としては、まず現実世界の主張には「正解」かどうかというレイブルをペアにした記録が存在しないことが多いからだという、まったくもって当たり前の事情がある。また、モデルは元になっているデータが異なるし、一定の思惑があって偏ったデータで学習していることもある。

このようなことは最初から分かっていたことであり、データが膨大になっているからといって解決できることでもない。トレーニングの元になるデータの本質的な制約なり不足なり欠陥なりリスクだからだ。したがって、色々な事情でそうなっているのであるから、このような違いを多様性バカと一緒になって喜んでいてはいけないし、かといって「どこか」へ収斂することが理想であるかのような錯覚も慎むべきであろう。

冒頭に戻る