Scribble at 2024-08-14 15:38:19 Last modified: 2024-08-15 14:30:50

AI のハルシネーションが問題となっているが、これはディープ・ラーニングというか生成 AI の仕組みを簡単にでも理解していれば驚くような話ではない。そもそも生成 AI はオンライン・コンテンツをスクレイピングして、そのデータにテンソルとして形式化されているメタ情報を宛てがい、その集積をトレーニング用のデータとしている。したがって、生成 AI の原理は「ウェブ・コンテンツとの比較において『よさげ』な回答」の範囲でしかなく、そこを超えるものではない。ましてや人類の知性を超えるなどというのは、生成 AI の原理を知っていれば世迷言であることが明白だ。

更には、その「よさげ」かどうかの基準はプロンプトとして入力されたキーワードと、トレーニングされた分散データのメタ情報との、それこそ機械的なセマンティクスの計算で評価された「距離の近さ」でしかない。そして、その結果を利用して作文された回答が PC 的に正しいかどうかとか犯罪や自殺を助長しないかどうかというフィルターを通るにしても、それだって善悪や是非を AI が「判断」しているわけではなく、避けるべき回答がもつ特徴との距離を算出した結果である。もちろん、ヒトの脳においてそれと「同等」（それが機能主義者の立場からであろうと何を意味するのであれ）の computation なり calculation が起きているのかもしれないが、なんにしてもそれだけのことで生成 AI の回答が何か驚くような成果を出すわけではないと分かる。ましてやヒトの思考の成果を集めたウェブ・コンテンツを（どういう意味であれ）超えるような発想やイノベーションを生成 AI が引き起こすなんてことは、ひとまず原理的にはありえないわけである。

ただし、ハルシネーションや遺伝的アルゴリズムや GAN のようなノイズを敢えて加えた対抗パラメータどうしの比較などによって生成 AI がデタラメに作文することも一つの許容範囲に含めるなら、そのデタラメさから何か新しいことが出てくる可能性はあろう。だが、それは昔から言われるように、サルにタイプライターで遊ばせて『マクベス』が打ち出されるのと同じような確率でないという保証もなかろう。

一般論として、ディープ・ラーニングが妥当な推論モデルであることの根拠は分かっていない。これは、学習の評価基準が入力データと出力データとの形式的な距離によって測られていて、そもそもそういう距離の割り当て（この割り当てすらディープ・ラーニングを使う場合がある）がヒトの判断やオンライン・コンテンツとの比較に依存しているからだと言える。つまり、ディープ・ラーニングに限らず AI の生成したコンテンツが、たとえ東大生の卒論を凌駕する文章だろうと、エロいイラストだろうと、あるいはインチキなクラシック音楽だろうと、それらの出力について良し悪しを決めていて、その評価に合わせて活性化関数の値を調整したり GAN などの処理プロセスを調整しているのは、われわれ自身でしかない。ここまで言えば気づくであろうが、要するにディープ・ラーニングの妥当性が分からないという困難は、あの昔懐かしきフレーム問題を解決できない困難と同じなのである。

フレーム問題を解決するとは、手持ちの条件によって判断の是非を自律的に評価できるという意味だが、一般的に言って「手持ちの条件」がなんであるかを決めることはできない。私の背景知識とあなたの背景知識は量も質も違うし、脳の特徴も違うであろう（もちろん、東大暗記小僧のみなさんプロパーが圧倒的に高性能なのであろう！）。だが、AI にそれらを正確にパラメータとして与えることは技術的に困難であるし、時々刻々と変わる可能性もある。また、個々の判定者や開発者の個人的な特性だけを評価基準にすると、いわゆる「過適合」になるので、特定のパラメータを評価基準として特別扱いし過ぎるのもよくないとさえ言われる。なにほどかのパラメータは推測あるいは最初から仮説によって固定しておくしかない。そして、その固定したパラメータを後から補正していくというのが現実的であろう。だが、このようなやり方では、われわれがそれ以降に新しく学んだり考えたことが入力として反映されないため、どれほど後から自律的に調整や修正を繰り返していこうと、後続する現実のパラメータが追加されない限りは比較対象が常に不十分なままであろう。

冒頭に戻る