注意機構
Attention Mechanism
ちゅういきこう
解説
注意機構とは、入力のどの部分を重視するかを重みで表し、必要な情報を集めて出力に反映する仕組みです。理解すると調整がしやすくなります。
長い会議の議事録を読むとき、すべての発言を均等に読むのではなく、重要なポイントに注意を集中させるのが自然です。LLMも同じように、入力テキストの中で「どこに注目すべきか」を学習しています。注意機構(Attention Mechanism)とは、入力の各部分に重要度の重みを割り当て、関連性の高い情報に集中して処理を行う仕組みです。
自己注意(Self-Attention)の仕組み
注意機構の中でも特に重要なのが自己注意(Self-Attention)です。入力文中の各トークンが、同じ文中の他のすべてのトークンとの関連度スコアを計算します。技術的には、各トークンからQuery(問い合わせ)、Key(キー)、Value(値)という3つのベクトルを生成し、QueryとKeyの内積で関連度を算出、その重みでValueを加重平均します。この計算により、文脈に応じた意味表現が得られます。
なぜ長距離の依存関係を捉えられるのか
従来のRNNでは、離れた位置にある単語の関係を捉えるには、情報が何ステップも伝播する必要がありました。注意機構では、距離に関係なくすべてのトークンペア間の関連度を直接計算するため、文の先頭と末尾の関係も1ステップで捉えられます。「昨日買った本を、今日になってようやく読み始めた」のような文で、「本を」と「読み始めた」の関係を正確に把握できるのはこの仕組みのおかげです。
マルチヘッド注意
実際のトランスフォーマーでは、注意機構を1つだけ使うのではなく、複数の「ヘッド」で並列に実行します。これをマルチヘッド注意(Multi-Head Attention)と呼びます。各ヘッドは異なる種類の関連性を学習します。あるヘッドは文法的な関係(主語と述語)に注目し、別のヘッドは意味的な関連(同義語、対義語)に注目するといった具合です。複数の視点からの情報を統合することで、より豊かな文脈理解が可能になります。
注意機構の応用と計算コスト
注意機構はLLMだけでなく、画像認識や音声処理など幅広い分野で活用されています。一方で、すべてのトークンペア間の計算が必要なため、入力長の2乗に比例する計算コストがかかるという課題があります。この問題を緩和するために、Flash AttentionやSparse Attentionなど、効率化の研究が活発に進められています。