混合専門家

解説

混合専門家とは、複数の小さな専門モデルを用意し、入力に応じて一部だけを選んで計算するモデル設計です。仕組みを知ると使い分けやすいです。

モデルのパラメータ数を増やせば性能が上がる。しかし、パラメータを増やすほど推論コストも膨大になる。この矛盾を解決するのが混合専門家モデルです。混合専門家（Mixture of Experts / MoE）とは、複数の専門的なサブネットワーク（エキスパート）を用意し、入力に応じて一部のエキスパートだけを選択的に起動することで、巨大なモデル容量と効率的な推論を両立するアーキテクチャです。

どのように動作するか

MoEモデルでは、Transformerの各層に複数のエキスパート（通常はフィードフォワードネットワーク）と、1つのゲーティングネットワーク（ルーター）が配置されます。入力トークンがルーターに渡されると、ルーターがそのトークンに最も適した2〜4個のエキスパートを選択し、選ばれたエキスパートだけが計算を実行します。残りのエキスパートは起動しないため、計算コストを抑えられます。

なぜ効率的なのか

たとえば、総パラメータ数が1,000億のMoEモデルで8個のエキスパートのうち2個だけを起動する場合、実際に使用されるパラメータは約250億相当です。つまり、1,000億パラメータの知識容量を持ちながら、推論時のコストは250億パラメータモデルと同程度で済みます。これにより、密なモデル（Dense Model）では実現が難しい規模の知識を、現実的な計算資源で扱えるようになります。

Mixtralの衝撃

Mistral AIが2023年12月にリリースしたMixtral 8x7Bは、MoEアーキテクチャの実用性を広く示しました。8つの70億パラメータのエキスパートを持ち、推論時は2つを起動します。総パラメータ数は約467億ですが、アクティブパラメータは約130億で、GPT-3.5に匹敵する性能をはるかに低いコストで実現しました。その後、Mixtral 8x22BやGrok-1など、より大規模なMoEモデルも登場しています。

課題とトレードオフ

MoEには独自の課題もあります。最大の問題はメモリ使用量です。推論時にアクティブなパラメータは一部でも、全エキスパートの重みをメモリに保持する必要があるため、密なモデルよりもメモリ消費は大きくなります。また、エキスパート間で負荷が偏る「負荷不均衡」の問題もあり、特定のエキスパートに入力が集中すると性能が低下します。

MoEの広がり

GPT-4もMoEアーキテクチャを採用していると広く報じられており、DeepSeek-V3やJamba、Arctic、DBRXなど、多くの最新モデルがMoEを取り入れています。今後のLLM開発において、MoEは性能とコストを両立するための標準的なアプローチになりつつあります。密なモデルとMoEモデルのどちらが優れるかは一概には言えませんが、効率性を重視する方向にトレンドが向かっていることは確かです。