Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

混合専門家

Mixture of Experts (MoE)

こんごうせんもんか

解説

混合専門家とは、複数の小さな専門モデルを用意し、入力に応じて一部だけを選んで計算するモデル設計です。仕組みを知ると使い分けやすいです。

モデルのパラメータ数を増やせば性能が上がる。しかし、パラメータを増やすほど推論コストも膨大になる。この矛盾を解決するのが混合専門家モデルです。混合専門家(Mixture of Experts / MoE)とは、複数の専門的なサブネットワーク(エキスパート)を用意し、入力に応じて一部のエキスパートだけを選択的に起動することで、巨大なモデル容量と効率的な推論を両立するアーキテクチャです。

どのように動作するか

MoEモデルでは、Transformerの各層に複数のエキスパート(通常はフィードフォワードネットワーク)と、1つのゲーティングネットワーク(ルーター)が配置されます。入力トークンがルーターに渡されると、ルーターがそのトークンに最も適した2〜4個のエキスパートを選択し、選ばれたエキスパートだけが計算を実行します。残りのエキスパートは起動しないため、計算コストを抑えられます。

なぜ効率的なのか

たとえば、総パラメータ数が1,000億のMoEモデルで8個のエキスパートのうち2個だけを起動する場合、実際に使用されるパラメータは約250億相当です。つまり、1,000億パラメータの知識容量を持ちながら、推論時のコストは250億パラメータモデルと同程度で済みます。これにより、密なモデル(Dense Model)では実現が難しい規模の知識を、現実的な計算資源で扱えるようになります。

Mixtralの衝撃

Mistral AIが2023年12月にリリースしたMixtral 8x7Bは、MoEアーキテクチャの実用性を広く示しました。8つの70億パラメータのエキスパートを持ち、推論時は2つを起動します。総パラメータ数は約467億ですが、アクティブパラメータは約130億で、GPT-3.5に匹敵する性能をはるかに低いコストで実現しました。その後、Mixtral 8x22BやGrok-1など、より大規模なMoEモデルも登場しています。

課題とトレードオフ

MoEには独自の課題もあります。最大の問題はメモリ使用量です。推論時にアクティブなパラメータは一部でも、全エキスパートの重みをメモリに保持する必要があるため、密なモデルよりもメモリ消費は大きくなります。また、エキスパート間で負荷が偏る「負荷不均衡」の問題もあり、特定のエキスパートに入力が集中すると性能が低下します。

MoEの広がり

GPT-4もMoEアーキテクチャを採用していると広く報じられており、DeepSeek-V3やJamba、Arctic、DBRXなど、多くの最新モデルがMoEを取り入れています。今後のLLM開発において、MoEは性能とコストを両立するための標準的なアプローチになりつつあります。密なモデルとMoEモデルのどちらが優れるかは一概には言えませんが、効率性を重視する方向にトレンドが向かっていることは確かです。