Model Distillation

モデル蒸留

もでるじょうりゅう

Definition

Model distillation is a compression technique that trains a smaller student model using outputs from a larger teacher model to transfer knowledge. It helps reduce latency and cost while keeping quality.

GPT-4やClaude Opusのような大規模モデルは高性能ですが、応答に数秒かかり、APIコストも1リクエストあたり数セントに達します。もし大規模モデルの「知識」をもっと小さなモデルに移せたら――この発想を実現するのが蒸留です。モデル蒸留（Knowledge Distillation）とは、高性能な大規模モデル（教師モデル）の出力を学習データとして小規模モデル（生徒モデル）を訓練し、教師に近い性能を低コストで実現する手法です。

暗黒知識（Dark Knowledge）の力

蒸留がなぜ効くのか、その鍵は2015年にHintonらが提唱した「暗黒知識（Dark Knowledge）」にあります。教師モデルの出力は単なる正解ラベルではなく、各選択肢への確率分布（ソフトラベル）です。たとえば「日本の首都は？」に対して教師が「東京: 0.92、京都: 0.05、大阪: 0.02」と出力した場合、この分布には「京都と大阪は東京に次いで有力な候補だが、バナナはまったく無関係」という概念間の関係性が暗黙的に含まれています。正解（東京）だけを教える場合と比べて、はるかに豊かな情報を1つの学習サンプルから得られるため、生徒モデルはそのサイズの割に高い性能を達成できるのです。

代表的な成功事例

蒸留の最も有名な成功例の一つがDistilBERTです。2019年にHugging Faceが発表したこのモデルは、BERTの性能の97%を維持しながらパラメータ数を40%削減し、推論速度を60%高速化しました。LLM時代では、MicrosoftのPhi系列が注目を集めています。Phi-1〜Phi-3は、大規模モデルが生成した「教科書品質」のデータで学習し、小型ながら高いベンチマーク性能を達成しました。GoogleのGemmaやMetaのLlama 3.2小型版なども蒸留を活用しています。

本番環境でのコスト革命

蒸留の最大の利点は、本番環境でのコスト削減と高速化です。開発フェーズでは大規模モデルで最高品質のベースラインを確立し、デプロイ時には蒸留した小型モデルに切り替える戦略が広まっています。レイテンシを10分の1以下に、APIコストを数十分の1に削減でき、スマートフォンやエッジデバイスでのオンデバイス推論も現実的になります。AppleのApple IntelligenceやGoogleのGemini Nanoなど、デバイス上で動くAI機能の多くは蒸留の恩恵を受けています。

API蒸留とライセンスの論争

LLMの蒸留では、教師モデルのAPI出力をそのまま学習データとして使う「API蒸留」が広く行われていますが、ここにはライセンス上の大きな論争があります。OpenAIの利用規約は出力を使った競合モデルの訓練を禁止しており、GoogleやAnthropicも同様の制限を設けています。2023年にはGPT-4出力で学習したオープンモデルが複数登場し議論を呼びました。一方、DeepSeekやMistralは自社の大規模モデルから小型モデルへの蒸留を公式に提供しており、ライセンスがクリアな蒸留パスも増えています。蒸留を活用する際は、教師モデルの利用規約を必ず確認することが重要です。