Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

注意機構

Attention Mechanism

ちゅういきこう

解説

注意機構とは、入力のどの部分を重視するかを重みで表し、必要な情報を集めて出力に反映する仕組みです。理解すると調整がしやすくなります。

長い会議の議事録を読むとき、すべての発言を均等に読むのではなく、重要なポイントに注意を集中させるのが自然です。LLMも同じように、入力テキストの中で「どこに注目すべきか」を学習しています。注意機構(Attention Mechanism)とは、入力の各部分に重要度の重みを割り当て、関連性の高い情報に集中して処理を行う仕組みです。

自己注意(Self-Attention)の仕組み

注意機構の中でも特に重要なのが自己注意(Self-Attention)です。入力文中の各トークンが、同じ文中の他のすべてのトークンとの関連度スコアを計算します。技術的には、各トークンからQuery(問い合わせ)、Key(キー)、Value(値)という3つのベクトルを生成し、QueryとKeyの内積で関連度を算出、その重みでValueを加重平均します。この計算により、文脈に応じた意味表現が得られます。

なぜ長距離の依存関係を捉えられるのか

従来のRNNでは、離れた位置にある単語の関係を捉えるには、情報が何ステップも伝播する必要がありました。注意機構では、距離に関係なくすべてのトークンペア間の関連度を直接計算するため、文の先頭と末尾の関係も1ステップで捉えられます。「昨日買った本を、今日になってようやく読み始めた」のような文で、「本を」と「読み始めた」の関係を正確に把握できるのはこの仕組みのおかげです。

マルチヘッド注意

実際のトランスフォーマーでは、注意機構を1つだけ使うのではなく、複数の「ヘッド」で並列に実行します。これをマルチヘッド注意(Multi-Head Attention)と呼びます。各ヘッドは異なる種類の関連性を学習します。あるヘッドは文法的な関係(主語と述語)に注目し、別のヘッドは意味的な関連(同義語、対義語)に注目するといった具合です。複数の視点からの情報を統合することで、より豊かな文脈理解が可能になります。

注意機構の応用と計算コスト

注意機構はLLMだけでなく、画像認識や音声処理など幅広い分野で活用されています。一方で、すべてのトークンペア間の計算が必要なため、入力長の2乗に比例する計算コストがかかるという課題があります。この問題を緩和するために、Flash AttentionやSparse Attentionなど、効率化の研究が活発に進められています。