Attention Mechanism

注意機構

ちゅういきこう

Definition

An attention mechanism is a method that assigns weights to parts of the input to focus on what matters and incorporate the needed information into the output. Understanding it makes model behavior easier to reason about.

長い会議の議事録を読むとき、すべての発言を均等に読むのではなく、重要なポイントに注意を集中させるのが自然です。LLMも同じように、入力テキストの中で「どこに注目すべきか」を学習しています。注意機構（Attention Mechanism）とは、入力の各部分に重要度の重みを割り当て、関連性の高い情報に集中して処理を行う仕組みです。

自己注意（Self-Attention）の仕組み

注意機構の中でも特に重要なのが自己注意（Self-Attention）です。入力文中の各トークンが、同じ文中の他のすべてのトークンとの関連度スコアを計算します。技術的には、各トークンからQuery（問い合わせ）、Key（キー）、Value（値）という3つのベクトルを生成し、QueryとKeyの内積で関連度を算出、その重みでValueを加重平均します。この計算により、文脈に応じた意味表現が得られます。

なぜ長距離の依存関係を捉えられるのか

従来のRNNでは、離れた位置にある単語の関係を捉えるには、情報が何ステップも伝播する必要がありました。注意機構では、距離に関係なくすべてのトークンペア間の関連度を直接計算するため、文の先頭と末尾の関係も1ステップで捉えられます。「昨日買った本を、今日になってようやく読み始めた」のような文で、「本を」と「読み始めた」の関係を正確に把握できるのはこの仕組みのおかげです。

マルチヘッド注意

実際のトランスフォーマーでは、注意機構を1つだけ使うのではなく、複数の「ヘッド」で並列に実行します。これをマルチヘッド注意（Multi-Head Attention）と呼びます。各ヘッドは異なる種類の関連性を学習します。あるヘッドは文法的な関係（主語と述語）に注目し、別のヘッドは意味的な関連（同義語、対義語）に注目するといった具合です。複数の視点からの情報を統合することで、より豊かな文脈理解が可能になります。

注意機構の応用と計算コスト

注意機構はLLMだけでなく、画像認識や音声処理など幅広い分野で活用されています。一方で、すべてのトークンペア間の計算が必要なため、入力長の2乗に比例する計算コストがかかるという課題があります。この問題を緩和するために、Flash AttentionやSparse Attentionなど、効率化の研究が活発に進められています。