Scribble at 2025-04-23 12:33:49 Last modified: unmodified

添付画像 — Gemma 3 QAT Models: Bringing state-of-the-Art AI to consumer GPUs

僕が利用しているデスクトップ・アプリケーションの LM Studio で読み込むモデルとして、Gemma の最新版が出ていて "QAT" という新しい符号が加えられていた。なんのことなのかと調べてみると、この記事にあるようにモデルを動作させるために必要なメモリが少なくても済むように調整されたようだ。実際、LM Studio で "lmstudio-community/gemma-3-4B-it-qat-GGUF" をロードしてみたが、これまで使っていた Gemma 3 よりもレスポンスの内容が「賢く」なっているように思うし、レスポンスそのものも速い。ただ、参考までに僕のマシンでやっと動く "lmstudio-community/gemma-3-12B-it-qat-GGUF" をロードしてみたが、なるほど 12B のモデルでも動くが、やはりレスポンスが遅くて実用性はない。このクラスを動かすには、やはり VRAM なり RAM がもっと必要だし、そもそも CPU やグラフィック・カードの性能も必要だろう。

ただまぁ、いままで Gemma は「おバカ」という印象があって、同じクラスのモデルでは Llama が圧倒的に使えていたので、今後は Gemma も選択肢の一つになりえる。

冒頭に戻る