Transformer
トランスフォーマー
とらんすふぉおまあ
Definition
A Transformer is a neural network architecture that captures important relationships in text using attention and can be trained efficiently with parallel computation. Knowing its mechanism helps you understand modern LLMs.
GPT、Claude、Gemini――名前はさまざまですが、現在の主要なAIモデルの根幹にある技術はすべて同じアーキテクチャに基づいています。トランスフォーマー(Transformer)とは、2017年にGoogleの研究チームが論文「Attention Is All You Need」で発表したニューラルネットワークアーキテクチャで、自己注意機構(Self-Attention)によって入力データ全体の関係性を並列に処理できる点が革新的です。
RNNの限界と並列処理の突破
トランスフォーマー以前、自然言語処理の主流はRNN(再帰型ニューラルネットワーク)やLSTMでした。これらは文章を先頭から1単語ずつ順番に処理するため、長い文章では前半の情報が薄れる問題がありました。さらに致命的だったのは逐次処理ゆえにGPUの並列計算能力を活かせない点です。トランスフォーマーは文章全体を一度に並列処理できるため、学習速度が飛躍的に向上し、数千億パラメータ規模のモデル訓練が現実的になりました。これが現在のLLMブームの技術的基盤です。
自己注意機構の仕組み
トランスフォーマーの核心は自己注意機構(Self-Attention)です。入力文中のすべてのトークンが、他のすべてのトークンとの関連度を計算します。たとえば「彼はりんごを食べた。それはとても甘かった」という文で、「それ」が「りんご」を指していることを、距離に関係なく直接的に学習できます。この仕組みにより、自己回帰モデルとして次のトークンを予測する際に、長い文脈の情報を失わずに活用できるのです。
エンコーダとデコーダの分岐
原論文ではエンコーダ(入力の理解)とデコーダ(出力の生成)を組み合わせた構造でしたが、その後の発展で用途に応じた派生が生まれました。BERTはエンコーダのみを使い、文章の分類や意味理解に優れています。GPTシリーズはデコーダのみを使い、文章生成に特化しています。現在のLLMの大半はデコーダのみのアーキテクチャを採用しており、ファインチューニングやLoRAでの特化もこの構造の上で行われています。
言語を超えた汎用アーキテクチャ
トランスフォーマーの影響は自然言語処理にとどまりません。画像認識のViT(Vision Transformer)はCNNに匹敵する性能を達成し、音声認識のWhisper、タンパク質構造予測のAlphaFold2、さらには動画生成のSoraまで、あらゆる分野でトランスフォーマーベースのモデルが最高性能を塗り替えています。2017年の1本の論文が、AI研究の方向性を根本から変えたと言っても過言ではありません。