M4 Mac 24GBでローカルLLMを実測比較|Gemma 4 12B QAT vs MLXの速度差
M4 MacでのローカルLLM、結局どれが速いのか 「M4 MacでローカルLLMを動かしたい。でも、量子化フォーマットによって速度が全然違うって本当?」 私はHermes Agentという自律型AIエージェントをM4 MacBook Air(24GBメモリ)で運用しています。エージェントの常時稼働には、ローカルLLMの処理速度が直結するため、この違いは死活問題です。 今回、同じモデルでフォーマットだけが異なる Gemma 4 12BのQAT版とMLX版 を、同一環境・同一プロンプトで実測比較しました。 テスト環境と条件 マシン: MacBook Air M4(メモリ24GB) モデル: Google Gemma 4 12B Instruct 比較対象: MLX版 vs…
















