Human Evaluation
人手評価
ひとでひょうか
Definition
Human evaluation is an assessment method where people read model outputs and judge quality using criteria such as accuracy and usefulness. It captures aspects that automated metrics often miss.
AIが書いた文章が「自然かどうか」「正確かどうか」は、最終的には人が読んで判断するしかない場面が多くあります。人手評価(Human Evaluation)とは、人間の評価者がAIモデルの出力を直接読み、品質を判定する評価手法です。
なぜ人手評価が必要なのか
自動的なスコアリングでは捉えきれない品質の側面が存在します。たとえば、文法的に正しくても文脈的に不自然な回答、事実としては正確でもユーザーの意図とずれた回答、あるいは微妙なニュアンスの誤りや文化的な不適切さなどです。人間の判断力は、こうした「数値化しにくい品質」を捉える最も信頼性の高い手段です。特に、創造的な文章生成、対話の自然さ、要約の的確さといったタスクでは、人手評価が事実上の標準となっています。
評価の進め方
一般的な人手評価では、まず評価基準を明確に定義します。典型的な基準には、正確性(事実に基づいているか)、有用性(質問に適切に答えているか)、流暢さ(自然で読みやすいか)、安全性(有害な内容を含んでいないか)などがあります。評価者はこれらの基準に沿って、個々の出力にスコアをつけたり、複数の出力を比較してランク付けしたりします。
Chatbot Arenaのように、2つのモデルの回答を並べて「どちらが良いか」をユーザーに選ばせるペアワイズ比較も広く使われている手法です。この方式は、絶対的なスコアリングよりも評価者間の一致率が高くなる傾向があります。
コストと課題
人手評価の最大の課題はコストと時間です。質の高い評価者を確保し、数百〜数千の出力を評価してもらうには、相応の費用と期間が必要です。また、評価者ごとの主観の違い(評価者間一致率の問題)や、疲労による判断のブレも避けられません。
さらに、専門的な分野(医療、法律、プログラミングなど)の評価には、その分野の知識を持つ評価者が必要であり、コストがさらに上がります。そのため実務では、重要な判断ポイントに絞って人手評価を行い、日常的な改善サイクルには自動評価を使うという組み合わせが一般的です。
現在の活用
主要なAI企業は、モデルのリリース前に大規模な人手評価を実施しています。特にアラインメント(安全性の調整)においては、人間のフィードバックがモデル改善の核心的な役割を果たしています。RLHFやConstitutional AIといった手法も、元をたどれば人手評価によるデータが出発点です。自動評価の技術が進歩しても、最終的な品質保証としての人手評価の重要性は変わらないと考えられています。