Scribble at 2024-09-19 17:05:27 Last modified: 2024-09-19 17:10:03

PubMed のような医学論文のアーカイブを調査した結果、"delve"（掘り下げる）という言葉を多用する論文がこの数年で急に増えたらしく、その理由として ChatGPT が "delve" という単語を頻繁に使う傾向があるからだという。このように、生成 AI が吐き出す文章には明白なバイアスがあって、AI にデータを食わせて生成した文章をコピペするだけで論文を書いているような手合は、すぐにバレるというわけだ。しかも各社では生成 AI の発散モデルを高度にトレーニングしていると思っていながら、実はこういう傾向を大量のデータで皮肉なことに収斂させてもいるわけで、これは機械学習を使った事実上のエコーチェインバーだと言える。hallucinationとは別の問題として注意しなくてはいけない。これではまるで、アナウンサーが１日に必ず１度は「浮き彫り」と発言する、どこかの公共放送のようなものだ。フェイクをばらまくのも困るが、生成 AI のコピペだけで科学コミュニティがモノローグに収斂するのも困る。

実際、僕もローカルで動かす生成 AI で文章を作成させているが、文体やプラグマティクスなどに一定のパターンが見えてくる。まるでホストのお喋りみたいに、「人に嫌われ難い調子だが、実際には自信満々の厚かましい文章パターン」みたいな傾向を感じるので、もちろん僕は生成した文章の論旨だけを採用するときは口調を改めている。

冒頭に戻る