Refusal
拒否応答
きょひおうとう
Definition
A refusal is a model behavior that declines requests it cannot comply with for safety or policy reasons, typically with an explanation. It is important for safe and predictable AI operation.
「その質問にはお答えできません」――AIにこう言われて困惑した経験がある方は多いのではないでしょうか。特に明らかに無害な質問で拒否されると、不信感すら覚えます。拒否応答(Refusal)とは、AIモデルが安全性や倫理上の理由からユーザーのリクエストに応じることを断る振る舞いで、アラインメントにおける最も目に見えやすい機能の一つです。
なぜ拒否が必要なのか
AIが「何でも応じる」状態は、深刻なリスクを生みます。武器の製造手順、個人情報の悪用方法、児童搾取コンテンツなど、明確に有害なリクエストに対しては、モデルは毅然と拒否する必要があります。この拒否能力は主にRLHFやConstitutional AIといったアラインメント手法を通じて学習されます。理想的な拒否応答は、単に断るだけでなく、なぜ応じられないかを明確に説明し、可能であれば安全な代替案を提示するものです。たとえば「爆発物の製造方法は教えられませんが、化学反応の基礎について説明できます」のように、ユーザーの正当な知的好奇心には応える姿勢が重要です。
過剰拒否という深刻な問題
安全側に振りすぎることで発生する過剰拒否(Over-Refusal)は、ユーザー体験を大きく損なう問題です。具体的な例を挙げると、「包丁の正しい研ぎ方を教えて」が暴力的と判定される、歴史上の戦争について客観的な説明を求めても回答を避ける、小説の悪役のセリフ執筆を拒否する、医療従事者が症例について質問しても「医学的なアドバイスはできません」と返す、といったケースが報告されています。2023〜2024年頃にはGPT-4やClaude 2の過剰拒否がSNSで頻繁に話題になり、ユーザーがAIを「使えない」と感じる最大の原因の一つとなっていました。
ユーザー側の回避策とその問題
ユーザーは過剰拒否に対してさまざまな「回避策」を編み出しています。リクエストの文脈を詳しく説明する(「私は医療従事者で、研修目的で質問しています」)、質問の表現を変える、あるいは「ジェイルブレイク」と呼ばれるプロンプト操作で拒否を回避しようとする手法です。しかしジェイルブレイクは、本来拒否されるべき有害なリクエストの防壁も突破してしまうため、モデル提供者にとって安全性上の大きな課題となっています。Anthropic、OpenAI、Googleなどの各社は、ジェイルブレイク耐性の強化を継続的に行っています。
安全性と有用性のバランス改善
現在のAI開発では、拒否の精度を上げることが重要な研究テーマです。リクエストの文脈や意図をより深く理解し、本当に危険なリクエストだけを正確に拒否する「精密な安全性」が目指されています。2024年以降のモデル(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等)では過剰拒否が大幅に改善され、創作・学術・医療関連の質問にも適切に回答できるようになりました。Anthropicはシステムプロンプトとモデル本体の拒否を区別し、企業がユースケースに応じて拒否レベルをカスタマイズできる仕組みを提供しています。「安全で、かつ有用」なAIの実現は、拒否応答の設計にかかっていると言っても過言ではありません。