Safety Classifier

セーフティ分類器

せえふてぃぶんるいき

Definition

A safety classifier is a detection model that determines whether inputs or outputs violate safety criteria and serves as a core part of guardrails. It helps reduce incidents by filtering risky content.

AIチャットに「爆弾の作り方」と入力すると即座に拒否されますが、「危険物の化学反応について教えて」なら回答されることがあります。この微妙な判断を一瞬で行っているのが、セーフティ分類器（Safety Classifier）です。セーフティ分類器とは、AIへの入力や出力が安全基準に違反していないかを検知・分類する専用のモデルで、ガードレールの中核コンポーネントとしてAIシステムの安全性を支えています。

入力と出力の二重チェック

セーフティ分類器は2つの段階で機能します。入力フィルタリングでは、ユーザーのプロンプトがジェイルブレイク攻撃や違法行為の指示を含んでいないかを、メインモデルが処理する前に判定します。出力フィルタリングでは、モデルが生成した回答が安全基準を満たしているかをユーザーに返す前にチェックします。入力側をすり抜けた攻撃にも出力側で対応できるため、この二重構造が重要です。

代表的な実装

多くのセーフティ分類器はBERT系やLLMベースのモデルをファインチューニングして構築されます。OpenAIのModeration APIは、暴力・自傷行為・性的コンテンツ・ヘイトスピーチなど複数カテゴリに対してスコアを返すAPIとして広く使われています。MetaのLlama Guardはプロンプトと応答の両方を評価でき、オープンソースで利用可能な点が注目されています。AnthropicもClaudeの安全性を支える独自の分類システムを運用しています。

誤検知と見逃しのトレードオフ

最大の課題は偽陽性（安全な内容を有害と判定）と偽陰性（有害な内容を見逃す）のバランスです。閾値を厳しくすれば安全性は上がりますが、医療相談や歴史教育など正当な用途まで制限してしまいます。たとえば「自殺予防の相談」が自傷行為として誤ブロックされるケースは実際に問題となっています。逆に閾値を緩くすると、巧妙なプロンプトインジェクションを通してしまいます。

多言語対応と今後の課題

英語以外の言語での精度確保も大きな課題です。日本語のように文脈依存性が高い言語では、同じ表現でも敬語や文脈で有害性の判定が変わることがあります。また、新しい隠語やスラングは日々生まれるため、分類器の継続的な更新が不可欠です。メインモデルの応答速度を損なわないよう、軽量で高速ながら多言語に対応した分類器の開発が活発に進められています。有害性の検出精度を高めながらも、正当な利用を妨げない――このバランスの追求がセーフティ分類器の研究開発の本質です。