Rubric Evaluation
ルーブリック評価
るうぶりっくひょうか
Definition
Rubric evaluation is a method that defines evaluation dimensions and scoring criteria in a rubric table so outputs are judged consistently. It improves alignment between evaluators and supports repeatable measurement.
「この回答は良い」「あの回答はイマイチ」という判断は、評価する人によって大きくばらつきます。ある人が高く評価した回答を、別の人が低く評価することは珍しくありません。ルーブリック評価とは、評価基準と各スコアの定義を明文化した採点表(ルーブリック)を使い、一貫性のある評価を実現する手法です。
ルーブリックの構造
ルーブリックは通常、評価軸(何を評価するか)とスコア定義(各点数に対応する品質の具体的な記述)で構成されます。たとえば「正確性」という評価軸に対して、5点は「すべての情報が事実と一致し、出典も明示されている」、3点は「概ね正確だが一部に軽微な誤りがある」、1点は「重大な事実誤認が含まれている」というように、各スコアの意味を具体的に定義します。
この具体性が重要です。「良い」「普通」「悪い」といった曖昧な基準では評価者の解釈が分かれますが、行動や特徴を具体的に記述することで、誰が評価しても近いスコアが出るようになります。
評価者間一致率
ルーブリック評価の品質を測る指標として、評価者間一致率(Inter-Rater Agreement)があります。複数の評価者が同じ出力に対してどの程度同じスコアをつけるかを数値化したもので、Cohenのカッパ係数やKrippendorffのアルファなどの統計指標が使われます。一致率が低い場合は、ルーブリックの記述が曖昧であるか、評価者のトレーニングが不十分であることを示唆しています。
実務では、本評価を始める前に少数のサンプルでキャリブレーションセッションを実施し、評価者間の認識を揃えることが一般的です。
LLM評価への応用
ルーブリックは、人手評価だけでなくLLM-as-Judge(LLMを評価者として使う手法)でも重要な役割を果たします。LLMにルーブリックをプロンプトとして与えることで、評価の一貫性と透明性が大幅に向上します。「この回答を1〜5で評価してください」とだけ指示するよりも、各スコアの具体的な条件を示したルーブリックを提供した方が、再現性の高い評価結果が得られます。
設計のポイント
ルーブリックの設計で注意すべき点がいくつかあります。まず、評価軸を絞ることです。あれもこれもと軸を増やすと評価の負担が増し、各軸への注意が散漫になります。一般的には3〜5軸が適切とされています。次に、各スコアの境界を明確にすることです。4点と5点の違いが曖昧だと評価がブレます。さらに、具体的な出力例を添えることで、評価者の理解が深まり一致率が向上します。よく設計されたルーブリックは、評価の品質を上げるだけでなく、モデル改善の方向性を明確にする羅針盤にもなります。