Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

トランスフォーマー

Transformer

とらんすふぉおまあ

解説

トランスフォーマーとは、文章中の重要な関係を注意機構で捉え、並列計算で学習できるニューラルネットです。仕組みを知ると使い分けやすいです。

GPT、Claude、Gemini――名前はさまざまですが、現在の主要なAIモデルの根幹にある技術はすべて同じアーキテクチャに基づいています。トランスフォーマー(Transformer)とは、2017年にGoogleの研究チームが論文「Attention Is All You Need」で発表したニューラルネットワークアーキテクチャで、自己注意機構(Self-Attention)によって入力データ全体の関係性を並列に処理できる点が革新的です。

RNNの限界と並列処理の突破

トランスフォーマー以前、自然言語処理の主流はRNN(再帰型ニューラルネットワーク)やLSTMでした。これらは文章を先頭から1単語ずつ順番に処理するため、長い文章では前半の情報が薄れる問題がありました。さらに致命的だったのは逐次処理ゆえにGPUの並列計算能力を活かせない点です。トランスフォーマーは文章全体を一度に並列処理できるため、学習速度が飛躍的に向上し、数千億パラメータ規模のモデル訓練が現実的になりました。これが現在のLLMブームの技術的基盤です。

自己注意機構の仕組み

トランスフォーマーの核心は自己注意機構(Self-Attention)です。入力文中のすべてのトークンが、他のすべてのトークンとの関連度を計算します。たとえば「彼はりんごを食べた。それはとても甘かった」という文で、「それ」が「りんご」を指していることを、距離に関係なく直接的に学習できます。この仕組みにより、自己回帰モデルとして次のトークンを予測する際に、長い文脈の情報を失わずに活用できるのです。

エンコーダとデコーダの分岐

原論文ではエンコーダ(入力の理解)とデコーダ(出力の生成)を組み合わせた構造でしたが、その後の発展で用途に応じた派生が生まれました。BERTはエンコーダのみを使い、文章の分類や意味理解に優れています。GPTシリーズはデコーダのみを使い、文章生成に特化しています。現在のLLMの大半はデコーダのみのアーキテクチャを採用しており、ファインチューニングやLoRAでの特化もこの構造の上で行われています。

言語を超えた汎用アーキテクチャ

トランスフォーマーの影響は自然言語処理にとどまりません。画像認識のViT(Vision Transformer)はCNNに匹敵する性能を達成し、音声認識のWhisper、タンパク質構造予測のAlphaFold2、さらには動画生成のSoraまで、あらゆる分野でトランスフォーマーベースのモデルが最高性能を塗り替えています。2017年の1本の論文が、AI研究の方向性を根本から変えたと言っても過言ではありません。