Scribble at 2024-09-22 20:00:04 Last modified: 2024-09-25 11:23:36

添付画像

Artificial-intelligence models are typically used online, but a host of openly available tools is changing that. Here’s how to get started with local AIs.

Forget ChatGPT: why researchers now run small AIs on their laptops

いやぁ。もちろん、僕も自宅で LM Studio + Llama 3.1 8B を使ってるし、会社でもローカルで動かすことを推奨してるわけだけど、科学というか学術研究に使うとなると、少し考えてもらいたいことは幾つかある。僕が業務用でローカルの生成 AI を勧めているのは、単純に会社の機密情報や事業で扱う個人情報をクラウドのサービスなんかに食わせるのは、ふつうに考えて法令で定められた「利用目的」に反する違法行為や、会社の機密を出鱈目に扱う背任行為だからだ。要するに、そんなことやるやつは非常識なんだよ。ネット・ベンチャーの社員として。

でも、学術研究の場合は逆にローカルの生成 AI がもつ幾つかの制約とか限界を理解していないと、ぜんぜん役に立たないと言える。たとえば、ローカルの生成 AI はチャットの記録を残さないと、チャットが終わるたびに対話した内容を忘れてしまう。起動するたびにデータがリセットされてしまうから、また最初から議論をやり直すことになってしまう。そして、仮に記録できたとしても、あまりにも長い対話となっていたら、長すぎるプロンプトを適正に扱えないのと同じく、それまでの脈絡を正しく理解して対話できなくなってしまう。ということで、研究には向かない可能性がある。テレンス・タオは「もうちょっとで、できのいい大学院生並になる」と評価していたけれど、もしローカルで運用するなら、僕はやや疑問がある。記憶力については、アイビー・リーグどころかコミュニティ・カレッヂの大学生にすら及ばない可能性があるからだ。

どうして最初からやりなおしになるかというと、新しい情報や対話が加わると、それを使って発散モデルをトレーニングしなおす必要があるからだ。発散モデルの全体ではなく、追加として扱う LoRA のようなものだとしても、そのトレーニングは、一般的なスペックだと個人のパソコンでやれるようなものではない。

それから、ローカルで動かす生成 AI が扱えるデータの量はかなり限られている。したがって、まったく簡単な話なのだが、複数の電子書籍を入力して比較させることはできない。何百ページもの議論を全て取り込んで、個々のトピックスや論点を洗い出したうえで、複数の文章について比較するなんてことは、ローカルで動く生成 AI のケーパビリティを超えているからだ。せいぜい、現状では実験的に Google が NotebookLM というサービスを公開していて、これは PDF をアップロードして解析できるようになっているが(書籍の PDF をまるごとアップロードしても解析できた)、自宅でこんなパフォーマンスを引き出すのは難しいだろう。

とは言っても、これは現時点のデスクトップ・パソコンのスペックを基準にしているからだという事実は考慮する必要があるだろう。もしかすると10年後には、数百億のパラメータをリアルタイムで再トレーニングしながら会話に対応してもお釣りが来るようなスペックがスマートフォンにすら実現しているかもしれない。しかし、そういう状況になると、今度はプロセス全体の最も非効率で非合理的なボトルネックになる、「人間」という厄介な部品をどうするかという深刻な問題にさらされる。僕は、どちらかと言うと(皮肉な意味でだが)「技術的シンギュラリティ」というのは知性の話ではなく、多くの処理や業務において機械が人間を超えるというよりも、人間が機械の邪魔になるので排除されるという話ではないかと思う。そして、こういう意味でなら、レイ・カーツワイルやピーター・ティールを初めとする「死ぬのが怖い、なんとかしてくれ」系の頭のおかしい人たちが何を考えていようと、既に世界中で「シンギュラリティ」はとっくに始まっている。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る