Scribble at 2023-11-28 12:32:45 Last modified: unmodified

添付画像

Until now! Towards Monosemanticity, recently out of big AI company/research lab Anthropic, claims to have gazed inside an AI and seen its soul.

God Help Us, Let's Try To Understand AI Monosemanticity

Substack でホストされてるブログっぽいのに、スクロールすると出てくる、あの鬱陶しいメール・アドレスの登録を促すポップアップが出てこないなぁと思ってたら、やはりページの右上に Substack へのサイン・アップのリンクがあった。でも、ここでホストされてるブログって、ブログの拡張ツールで画面のキャプチャーが取れないことがあるんだよね。なんだか不思議な挙動をするよ(上のキャプチャーは、仕方ないので常駐ソフトの Greenshot で取得した)。

さて内容だが、"monosemanticity" という概念を取り上げているのは、英語が読めなくてもおわかりだろう。これは、言葉としては以前からあって、文化人類学でも使われてきたのだけれど、情報科学においては機械学習の分野で "Engineering Monosemanticity in Toy Models," (Adam S. Jermyn, Nicholas Schiefer, Evan Hubinger, 2022, https://arxiv.org/abs/2211.09169) という論文や、"AI Safety 東京" (aisafety.tokyo) という勉強会の団体でも使われるようになってきているらしい。

で、まず神経プロセスをモデルとした学習理論の話から始まるわけだが、僕にはさほど凄い話をしているようには思えない。なぜなら、認知処理だろうとディープ・ラーニングの処理だろうと、内実がわからないのは人の脳も人工知能も同じだからだ。僕らが何かを考えたり想像しているとき、たとえば「スズメ」について考えているときに、脳のどこかに「スズメ」と書かれたカードが置かれているわけでもなければ、「ス」「ズ」「メ」という文字が神経細胞のどれかに印刷されているわけでもない。そんなものは僕らの脳のどこを探してもないのである。では、僕らが文字とかスズメの姿を思い浮かべるときに脳では「何が」その反応を担っているのだろうか。それは、たぶん上の論説で紹介されているような奇妙な画像として紹介される他にないような電気的なパターンだったり、神経細胞のひとまとまりだったりするのだ。つまり、人工知能における言葉や画像の実質的な payload が奇妙なパターンであるというのは錯覚であって、人の脳で起きている認知プロセスの payload と何ら変わらないのである。そこを、人の知能や概念枠や理解や個人的な素養の範囲で理解しようとして、payload を分かりやすいイラストや図表や言葉で表してきたのが、これまでの未熟な(それこそチョムスキーが登場するまでの)言語学や(チョムスキーが登場してからも未だに「分析哲学」として生き残っている)言語哲学だったと思う。僕が科学哲学の研究者として、科学哲学という研究分野の経緯や出自の問題として色々とあるにせよ、言語哲学とか言語分析哲学(俗に言う「分析哲学」)を、結局は言語学や機械学習の素人談義にすぎないとして科学哲学から排除しようとしてきたのは、これが理由である。

ということは言えるけれど、上記の記事って実際には monosemanticity の話を殆どしてないんだよな。なので、内部に重層的なシミュレート環境があるなんてことを神だのなんのと言ってるだけで、後半はかなりつまらない。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook