Scribble at 2024-10-14 09:05:39 Last modified: 2024-10-15 12:34:11

添付画像

Large language models (LLMs) are a potential substitute for human-generated data and knowledge resources. This substitution, however, can present a significant problem for the training data needed to develop future models if it leads to a reduction of human-generated content. In this work, we document a reduction in activity on Stack Overflow coinciding with the release of ChatGPT, a popular LLM. To test whether this reduction in activity is specific to the introduction of this LLM, we use counterfactuals involving similar human-generated knowledge resources that should not be affected by the introduction of ChatGPT to such extent. Within 6 months of ChatGPT’s release, activity on Stack Overflow decreased by 25% relative to its Russian and Chinese counterparts, where access to ChatGPT is limited, and to similar forums for mathematics, where ChatGPT is less capable. We interpret this estimate as a lower bound of the true impact of ChatGPT on Stack Overflow. The decline is larger for posts related to the most widely used programming languages. We find no significant change in post quality, measured by peer feedback, and observe similar decreases in content creation by more and less experienced users alike. Thus, LLMs are not only displacing duplicate, low-quality, or beginner-level content. Our findings suggest that the rapid adoption of LLMs reduces the production of public data needed to train them, with significant consequences.

Large language models reduce public knowledge sharing on online Q&A platforms

この論文では、ChatGPT が利用される頻度と Stack Overflow の投稿数とを比較しているらしい。そして、LLM のトレーニング・データは Stack Overflow などオンライン・コンテンツであるにもかかわらず、ChatGPT の普及によって、皮肉にもそのデータの質と量とか低下している可能性があるということのようだ。LLM が常温核融合サイクルみたいなモデルと同じく、ヘビがてめーの尻尾を齧ってるのと同じだという話は、そもそも昔から言われていたことだし、トレーニングのデータがウェブのコンテンツだと聞かされた時点で、僕だって既にここで同じようなことを書いている。それを或るていどの規模で実証したのは一つの成果だけれど、まぁ「なにをいまさら」という印象がなくもない。どちらかと言えば市場の拡大や投資の増加などに水を差すような話だから、敢えて蓋をしてきたというのが実情だろう。そういう意味では、大規模言語モデルにかかわるビジネスを展開している人々だって、Meta や Google や Microsoft が手掛けているのだし、しょせんはマーケティングのことしか考えていないということだ。

もちろん、だからといって、その影響が常に悪いとは限らない。偽善者や人間のクズが携わっていようと、彼らが深刻な病気の特効薬を見つけたり、レイ・カーツワイルが言うところでは「不老不死」の方法を見つけるかもしれない。あまたのハードボイルドな SF が語ってきたように、テクノロジーはなにも清廉潔白な人物が発明したり発展させる必要などないわけである。

さてしかし、LLM はコンピューティング環境の進展によって計算能力が向上し、更に大量のデータを効率よく処理できるようになるというのに、LLM に食わせるデータはどんどん少なくなり、せいぜい次から次へとオンラインに追加されるのは、広告代理店の下請けが X や Facebook に吐き出すヘイト・スピーチやネトウヨ発言や陰謀論や政党あるいは企業の広告・宣伝、闇バイト、遊び半分のディープ・フェイク、ガキの虐めテキスト、凡人のつぶやき、暇な成金の自慢話やいただき女子系のエロ・メッセージ、「100万円あげます系」の詐欺などなどだ。要するにゴミやクズばかりが増えてゆき、もちろんそれらを新しいデータとして放り込まれた AI はみるみるうちにアホになるし、そもそも馬鹿の書くことなんて古今東西で同じなのだから(それが「凡庸」「凡人」ということだ)、AI の中身は開発元がどこであるか、内部のアルゴリズムがどうであるかに関係なく、業界全体で巨大なエコー・チェインバーを形成するほかなくなる。

で、そういう「アホの子としての生成 AI」しか使わなくなったわれわれは、AI と一緒に更にアホになっていくというわけだ。たぶん、そうやって AI が一緒にアホになっていっても、その収束先は単なる平均・平衡というものでしかないわけであって、平均であるからにはどちらかがどちらかを「超える」ということはありえないわけである。そういう意味でも「シンギュラリティ」は不可能なのだ(笑)。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る