Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Rubric Evaluation

ルーブリック評価

るうぶりっくひょうか

Definition

Rubric evaluation is a method that defines evaluation dimensions and scoring criteria in a rubric table so outputs are judged consistently. It improves alignment between evaluators and supports repeatable measurement.

「この回答は良い」「あの回答はイマイチ」という判断は、評価する人によって大きくばらつきます。ある人が高く評価した回答を、別の人が低く評価することは珍しくありません。ルーブリック評価とは、評価基準と各スコアの定義を明文化した採点表(ルーブリック)を使い、一貫性のある評価を実現する手法です。

ルーブリックの構造

ルーブリックは通常、評価軸(何を評価するか)とスコア定義(各点数に対応する品質の具体的な記述)で構成されます。たとえば「正確性」という評価軸に対して、5点は「すべての情報が事実と一致し、出典も明示されている」、3点は「概ね正確だが一部に軽微な誤りがある」、1点は「重大な事実誤認が含まれている」というように、各スコアの意味を具体的に定義します。

この具体性が重要です。「良い」「普通」「悪い」といった曖昧な基準では評価者の解釈が分かれますが、行動や特徴を具体的に記述することで、誰が評価しても近いスコアが出るようになります。

評価者間一致率

ルーブリック評価の品質を測る指標として、評価者間一致率(Inter-Rater Agreement)があります。複数の評価者が同じ出力に対してどの程度同じスコアをつけるかを数値化したもので、Cohenのカッパ係数やKrippendorffのアルファなどの統計指標が使われます。一致率が低い場合は、ルーブリックの記述が曖昧であるか、評価者のトレーニングが不十分であることを示唆しています。

実務では、本評価を始める前に少数のサンプルでキャリブレーションセッションを実施し、評価者間の認識を揃えることが一般的です。

LLM評価への応用

ルーブリックは、人手評価だけでなくLLM-as-Judge(LLMを評価者として使う手法)でも重要な役割を果たします。LLMにルーブリックをプロンプトとして与えることで、評価の一貫性と透明性が大幅に向上します。「この回答を1〜5で評価してください」とだけ指示するよりも、各スコアの具体的な条件を示したルーブリックを提供した方が、再現性の高い評価結果が得られます。

設計のポイント

ルーブリックの設計で注意すべき点がいくつかあります。まず、評価軸を絞ることです。あれもこれもと軸を増やすと評価の負担が増し、各軸への注意が散漫になります。一般的には3〜5軸が適切とされています。次に、各スコアの境界を明確にすることです。4点と5点の違いが曖昧だと評価がブレます。さらに、具体的な出力例を添えることで、評価者の理解が深まり一致率が向上します。よく設計されたルーブリックは、評価の品質を上げるだけでなく、モデル改善の方向性を明確にする羅針盤にもなります。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.