Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

量子化

Quantization

りょうしか

解説

量子化とは、モデルの重み表現を低ビット化して計算量とメモリを減らし、推論を高速・低コストにする手法です。理解すると調整がしやすくなります。

数百億パラメータのLLMを自分のPCで動かしたい。しかしGPUメモリが足りない。そんな壁にぶつかったとき、解決策となるのが量子化です。量子化(Quantization)とは、モデルの重みパラメータをより少ないビット数で表現することで、メモリ使用量と計算コストを大幅に削減する技術です。

ビット数を減らすとは

通常、LLMの重みは32ビットまたは16ビットの浮動小数点数で保存されています。量子化はこれを8ビット、4ビット、あるいはそれ以下に変換します。たとえば、16ビット→4ビットの量子化では、メモリ使用量が約4分の1になります。70Bパラメータのモデルが、16ビットでは約140GBのメモリを必要としますが、4ビット量子化で約35GBにまで圧縮でき、一般的なGPUでも動作可能になります。

精度への影響

「情報量を減らして品質は落ちないのか」という疑問は当然です。実際、量子化による精度低下は避けられませんが、最新の手法ではその影響は驚くほど小さくなっています。8ビット量子化ではほぼ精度低下なし、4ビットでも多くのタスクで実用的な品質を維持できます。ただし、2ビット以下の極端な量子化では品質の劣化が目立つため、用途に応じたビット数の選択が重要です。

主要な量子化手法

量子化にはいくつかの手法があります。GPTQは学習後の重みをGPUで効率的に量子化する手法で、推論速度に優れます。GGUF(旧GGML)はllama.cppで使われるフォーマットで、CPUでの推論に最適化されており、MacやWindows PCでLLMを動かすときの定番です。AWQはハードウェアを意識した量子化で、GPTQより高速な推論が可能です。bitsandbytesはHugging Face環境で手軽に量子化を適用できるライブラリとして広く使われています。

ローカルLLMの民主化

量子化技術の発展は、LLMのローカル実行を現実的なものにしました。OllamaやLM Studioといったツールを使えば、4ビット量子化されたLlama 3やMistralなどのモデルを、16GBのメモリを搭載した一般的なノートPCでも動かせます。クラウドAPI不要、データを外部に送信する必要もないため、プライバシーを重視する用途やオフライン環境で特に価値があります。量子化は、高性能AIを手元で使える時代を切り開いた重要な技術です。