Scribble at 2024-10-23 15:02:44 Last modified: 2024-10-23 23:53:52
LM Studio のようにローカルで利用する LLMs のフロント・エンドを導入するときの注意としては、どんな LLMs でも十分なパフォーマンスを維持しながら処理できる「トークン」の数には限りがあるということだ。これは、もちろんパフォーマンスとトークン量のトレード・オフになっていて、そのマシンでメモリを使用する量にも関わる。だいたい、ローカル・マシンで運用する Llama 3.2 3B なんていうサイズの拡散モデルだと、メモリの量にもよるが 8K 前後のトークンで運用するのが望ましいということになっている。
もちろんだが、一つのチャット(会話のスレッドに相当する)で質問と回答のやりとりを延々と続けても構わない。それは仕様として禁止されてはいないのだが、モデルのパフォーマンスが限界になると、古い内容から「忘れて」いくようになっている。したがって、ChatGPT だろうと Claude だろうと Gemini だろうと、「それまでの会話を整理して、こちらから改めて新しいコンテクストとして提供すれば、会話を適切に続行できるだろうか?」と質問すれば、それが良いと返事してくるはずだし、実際に生身の相手とする会話でも(長くなればなるほど)そうすることが望ましい。『朝まで生テレビ』のような番組に議論や討論としての意味がないのは、そういう経緯で得た蓄積を無視して刹那的な応酬というエンターテインメントにばかり固執していたからなのだ。