Scribble at 2025-02-08 07:55:37 Last modified: 2025-02-08 08:11:04
既に報道でご承知のとおり、1週間ほど世間の話題となって NVIDIA の株価を大暴落させた DeepSeek はインチキだったというのが結論のようである。同じく報道されたところによれば、DeepSeek は OpenAI のアカウントを使って現行モデルの応答内容を大量に収集することで、いわゆる教師データを手に入れたという。教師データは AI が返答するべき「正解」として確度の高い情報をもつため、最初から大量の正解でトレーニングすれば、元のモデルが未知の質問についてわざわざ推論していた過程を必要としなくなり、正解に至るまでの具体的な推論ではなく答えに導く傾向をアルゴリズムとして設定すればよいだけになるから、容量が小さくて応答速度の高いモデルを作れるというわけだ。
いまだに DeepSeek の「未来」なんてことを語っている、しょせんは IT 業界からのお零れで金儲けできさえすればいいというマーケティングや営業あるいは都内のゴロツキ起業家どもが自社メディアや経済系のメディアで話題にし続けているが、中身を知ってしまえば何のことはない。量子力学を基礎から作り上げた過去100年の物理学者たちの成果をまとめたと称するブルーバックスを読んで最先端の物理学者だと名乗る「天才小学生」のようなものだ。そういや、久米宏が帯に推薦文を書いた物理のらくがき帳みたいな本を出版した小学生は、現在は何をしているのだろうね。まだ二十歳にはなっていないと思うが、ハーヴァードの教授やらプリンストン高等研究所にでも在籍しているのだろうか・・・なんてことは絶対にない。なぜなら、学者としての最低の資質というものは独立した研究者として、あるていど独創的と評価される成果を積み上げることであって、量子力学の教科書や通俗本を書くなんていう出版パフォーマンスをどれだけやろうと、プロパーの学者になるための能力を示す証拠にはならないからである。まぁ、日本なんていう後進国では、ああした「天才少年」の末路というのは、どのみち勉強法とか記憶術とか東大に入る方法なんていう話題で、「復習中年」や学歴コンプレックスがある人を刺激する本を売り歩くような出版ゴロになるのが関の山だろうね。
そんなこんなで、既存のモデルの応答内容を使って答えを速く応答するモデルにチューニングするだけでは、理論的にも、それからモデルの性能としても、どれほどパフォーマンスとして向上していこうと行き詰るのは明らかだ。たとえ OpenAI のモデルより応答性が高いとしても、それを使うのはしょせんヒトであるから、応答速度が0.1秒から0.05病へ半分に改善されたとしても、そんなことが現実のビジネスで何か有効なヒトのやる成果に寄与するとは思えないからだ。そういう推論をたとえ100回ほど必要とする業務があるとしても、そういう業務で最も時間を使うのは、たぶん AI の推論ではなくヒトの思考や判断や操作に要する時間であろう。
で、実際にローカル版の蒸留モデルとされている DeepSeek(DeepSeek-R1-Distill-Llama-8B-GGUF/DeepSeek-R1-Distill-Llama-8B-Q4_K_M.gguf という、Meta の Llama をベースにしたモデル)を使ってみたが、応答内容がデタラメに中国語になったり英語になったりと安定しない。報道されているような、天安門事件について尋ねると応答を誤魔化したり拒否するようなことがなかったのは、既に何日か前にここでも書いているが、言われているほどレスポンスが速いわけでもない。正直、軽量版の Llama 3.2(Llama-3.2-3B-Instruct-Q8_0-GGUF/llama-3.2-3b-instruct-q8_0.gguf)の方が快適に使えるし、僕が使っている限りでは応答内容の品質にも大きな差はないと思う。