Mixture of Experts (MoE)
混合専門家
こんごうせんもんか
Definition
A mixture of experts is a model design that prepares multiple specialized sub-models and computes only a selected subset depending on the input. It can scale capacity while controlling inference cost.
モデルのパラメータ数を増やせば性能が上がる。しかし、パラメータを増やすほど推論コストも膨大になる。この矛盾を解決するのが混合専門家モデルです。混合専門家(Mixture of Experts / MoE)とは、複数の専門的なサブネットワーク(エキスパート)を用意し、入力に応じて一部のエキスパートだけを選択的に起動することで、巨大なモデル容量と効率的な推論を両立するアーキテクチャです。
どのように動作するか
MoEモデルでは、Transformerの各層に複数のエキスパート(通常はフィードフォワードネットワーク)と、1つのゲーティングネットワーク(ルーター)が配置されます。入力トークンがルーターに渡されると、ルーターがそのトークンに最も適した2〜4個のエキスパートを選択し、選ばれたエキスパートだけが計算を実行します。残りのエキスパートは起動しないため、計算コストを抑えられます。
なぜ効率的なのか
たとえば、総パラメータ数が1,000億のMoEモデルで8個のエキスパートのうち2個だけを起動する場合、実際に使用されるパラメータは約250億相当です。つまり、1,000億パラメータの知識容量を持ちながら、推論時のコストは250億パラメータモデルと同程度で済みます。これにより、密なモデル(Dense Model)では実現が難しい規模の知識を、現実的な計算資源で扱えるようになります。
Mixtralの衝撃
Mistral AIが2023年12月にリリースしたMixtral 8x7Bは、MoEアーキテクチャの実用性を広く示しました。8つの70億パラメータのエキスパートを持ち、推論時は2つを起動します。総パラメータ数は約467億ですが、アクティブパラメータは約130億で、GPT-3.5に匹敵する性能をはるかに低いコストで実現しました。その後、Mixtral 8x22BやGrok-1など、より大規模なMoEモデルも登場しています。
課題とトレードオフ
MoEには独自の課題もあります。最大の問題はメモリ使用量です。推論時にアクティブなパラメータは一部でも、全エキスパートの重みをメモリに保持する必要があるため、密なモデルよりもメモリ消費は大きくなります。また、エキスパート間で負荷が偏る「負荷不均衡」の問題もあり、特定のエキスパートに入力が集中すると性能が低下します。
MoEの広がり
GPT-4もMoEアーキテクチャを採用していると広く報じられており、DeepSeek-V3やJamba、Arctic、DBRXなど、多くの最新モデルがMoEを取り入れています。今後のLLM開発において、MoEは性能とコストを両立するための標準的なアプローチになりつつあります。密なモデルとMoEモデルのどちらが優れるかは一概には言えませんが、効率性を重視する方向にトレンドが向かっていることは確かです。