Scribble at 2025-08-06 09:03:49 Last modified: 2025-08-06 09:13:12

gpt-oss-20b なら、safetensors ファイルの合計が 10 GB ていどだから、「どこでも実行できる」という宣伝文句は過剰だけれど、僕が使っているていどのマシン（VRAM が 16 GB で、仮想メモリを 24 GB ていど確保している）であれば何とか動くだろう。もちろん、Hugging Face にリリースされているファイルをそのまま使うわけではなく、たとえば LM Studio のようなフロント・エンドであれば量子化したモデルを使うことになるだろう。（と、書いた後で調べたら、既に出ていた。https://huggingface.co/lmstudio-community/gpt-oss-20b-GGUF なお、MLX では８ビットに量子化するようだが、こちらはまだ出ていない。）

ただ、実用性があるかどうかは疑問がある。実際、LM Studio で何とか動く巨大なモデルを読み込んで使うと、推論結果の品質はいいかもしれないが、推論に要する時間が長すぎるからだ。Gemma や Llama の量子化モデルなら即座に出てくる返答が、12 GB くらいのサイズがあるモデルを使うと、返答するまでに何分もかかることが多い。ちょうど、Gemini の deep research で調査させているような感覚に似ている。だが、一言の簡単な質問、それこそ「おはよう」という入力へのレスポンスすら何分もかかるようでは、まだまだという気がする。（簡単に言えば、それこそ「フレーム問題」が解決不能であるからこそ、そういうときは推論なんてせずに「やぁ、おはよう」とだけ言えばいいのだと判断できないのだ。）

冒頭に戻る