Scribble at 2023-11-09 11:59:25 Last modified: 2023-11-10 11:02:17

添付画像 — Researchers warn we could run out of data to train AI by 2026. What then?

今の調子で AI のモデルを作成するトレーニング用のデータを集めると、2026年までにはデータが枯渇してしまうという予測があるらしい。

2026年までに枯渇すると予測されているのは、AI のトレーニングに使えるだけの品質があるとされる「良質なコンテンツ」だ。SNS の投稿や、漫然とインデックスされただけの検索エンジンの結果なんてもので AI をトレーニングすると、何年か前に Microsoft が Twitter で公開した自動応答のボットみたいにヘイト・スピーチを撒き散らすような結果になってしまう。あれを、フジサンケイ系列のインチキ右翼やネトウヨのような連中なら「正論」とか呼ぶのだろうけど、いちおう常識的にクズだと仮定すれば、ああした出力を避けるには SNS の投稿なんてものでトレーニングしてはいけないという教訓が残る。すると、そういう意味で「お上品なリソース」だけを選ぶと、そら古典的な文学作品とか学術雑誌の論文とかに限られるため、やがてリソースは枯渇するというわけである。

ここで注意したいのは、あと３年で枯渇するほど「まともなリソース」は少ないのかという話である。そして、当然だが枯渇すると予測しているということは、原則として人類が「まともなリソース」を生み出す能力はトレーニング用のデータとして AI が取り込む効率に追いつかないというわけである。そういう意味で「シンギュラリティ」だと皮肉なことを言えるかもしれないが、ともあれ、当たり前のことだが上質の業績とか成果なんて、そんな簡単に誰でも生み出せたり、大量に増やせるものではないということをわきまえていれば、こんなことは驚くような話でもなんでもない。

既に、われわれは何かを考えるにあたって十分なリソース（そして、そこから簡単に爆発的に増えるわけでもない分量のリソース）を手にしているのだ。これは、たとえば海賊版の電子書籍をバラ撒いているサイトを見ていても同じことが言える。哲学の古典的な業績なんてものは、それこそ商業的な出版物が貴族でも何でも無い労働者でも買えるようになった前世紀から、たかだか100年ていどで数多くの出版物として発行されてきたけれど、しょせんその数は知れている。試しに、僕が哲学者として読むべきだと感じた出版物を海賊版のサイトにアップロードされている一覧から拾っていくと、平均すればせいぜい１年に10冊前後といったところだ。もちろん、その中には一生をかけて読み返してもいいくらいの古典的な業績と言っていい著作物もあるが、大半は丁寧に一読すれば二度と読まなくてもいいものである。これはあくまでも僕の基準で言っているだけだが、たとえばクワインの『ことばと対象』は手元に置いて何度も読み返すべき本だと思うけれど、（僕を「分析系」の哲学者だと思ってるなら）意外に思うかもしれないが、ウィトゲンシュタインの『論理哲学論考』は何度も読むような本ではないと思う。正直、アフォリズムのような文体の著作物を「深い」とか「難解」だなどと思いこむのは止めたほうがいい。それこそ、『論理哲学論考』を書いた当人が強調しているように、書かれてあることだけで是非を判断すればいいのだ。

それからもう一点だけ書いておくと、このところ ChatGPT を始めとする AI のブームで機械学習の特定のモデルだけを語っていることに気づかない人も多いわけだが、これはあくまでも「教師ありモデル」という脈絡の中で議論しているからこそ大問題であるかのようになっているわけであって、本来は AGI とまではいかなくともトレーニングを必要としない自律的な AI の開発を目的としている筈なのであるから、データがなくなったらなくなったで次の段階へ踏み出す強いインセンティブが働くと思った方がよいだろう。

冒頭に戻る