注意機構

Attention Mechanism

ちゅういきこう

解説

注意機構とは、入力のどの部分を重視するかを重みで表し、必要な情報を集めて出力に反映する仕組みです。理解すると調整がしやすくなります。

長い会議の議事録を読むとき、すべての発言を均等に読むのではなく、重要なポイントに注意を集中させるのが自然です。LLMも同じように、入力テキストの中で「どこに注目すべきか」を学習しています。注意機構（Attention Mechanism）とは、入力の各部分に重要度の重みを割り当て、関連性の高い情報に集中して処理を行う仕組みです。

自己注意（Self-Attention）の仕組み

注意機構の中でも特に重要なのが自己注意（Self-Attention）です。入力文中の各トークンが、同じ文中の他のすべてのトークンとの関連度スコアを計算します。技術的には、各トークンからQuery（問い合わせ）、Key（キー）、Value（値）という3つのベクトルを生成し、QueryとKeyの内積で関連度を算出、その重みでValueを加重平均します。この計算により、文脈に応じた意味表現が得られます。

なぜ長距離の依存関係を捉えられるのか

従来のRNNでは、離れた位置にある単語の関係を捉えるには、情報が何ステップも伝播する必要がありました。注意機構では、距離に関係なくすべてのトークンペア間の関連度を直接計算するため、文の先頭と末尾の関係も1ステップで捉えられます。「昨日買った本を、今日になってようやく読み始めた」のような文で、「本を」と「読み始めた」の関係を正確に把握できるのはこの仕組みのおかげです。

マルチヘッド注意

実際のトランスフォーマーでは、注意機構を1つだけ使うのではなく、複数の「ヘッド」で並列に実行します。これをマルチヘッド注意（Multi-Head Attention）と呼びます。各ヘッドは異なる種類の関連性を学習します。あるヘッドは文法的な関係（主語と述語）に注目し、別のヘッドは意味的な関連（同義語、対義語）に注目するといった具合です。複数の視点からの情報を統合することで、より豊かな文脈理解が可能になります。

注意機構の応用と計算コスト

注意機構はLLMだけでなく、画像認識や音声処理など幅広い分野で活用されています。一方で、すべてのトークンペア間の計算が必要なため、入力長の2乗に比例する計算コストがかかるという課題があります。この問題を緩和するために、Flash AttentionやSparse Attentionなど、効率化の研究が活発に進められています。