Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

セーフティ分類器

Safety Classifier

せえふてぃぶんるいき

解説

セーフティ分類器とは、入力や出力が安全基準に反していないかを判定する検知モデルで、ガードレールの中核になります。安全な運用の基礎になります。

AIチャットに「爆弾の作り方」と入力すると即座に拒否されますが、「危険物の化学反応について教えて」なら回答されることがあります。この微妙な判断を一瞬で行っているのが、セーフティ分類器(Safety Classifier)です。セーフティ分類器とは、AIへの入力や出力が安全基準に違反していないかを検知・分類する専用のモデルで、ガードレールの中核コンポーネントとしてAIシステムの安全性を支えています。

入力と出力の二重チェック

セーフティ分類器は2つの段階で機能します。入力フィルタリングでは、ユーザーのプロンプトがジェイルブレイク攻撃や違法行為の指示を含んでいないかを、メインモデルが処理する前に判定します。出力フィルタリングでは、モデルが生成した回答が安全基準を満たしているかをユーザーに返す前にチェックします。入力側をすり抜けた攻撃にも出力側で対応できるため、この二重構造が重要です。

代表的な実装

多くのセーフティ分類器はBERT系やLLMベースのモデルをファインチューニングして構築されます。OpenAIのModeration APIは、暴力・自傷行為・性的コンテンツ・ヘイトスピーチなど複数カテゴリに対してスコアを返すAPIとして広く使われています。MetaのLlama Guardはプロンプトと応答の両方を評価でき、オープンソースで利用可能な点が注目されています。AnthropicもClaudeの安全性を支える独自の分類システムを運用しています。

誤検知と見逃しのトレードオフ

最大の課題は偽陽性(安全な内容を有害と判定)と偽陰性(有害な内容を見逃す)のバランスです。閾値を厳しくすれば安全性は上がりますが、医療相談や歴史教育など正当な用途まで制限してしまいます。たとえば「自殺予防の相談」が自傷行為として誤ブロックされるケースは実際に問題となっています。逆に閾値を緩くすると、巧妙なプロンプトインジェクションを通してしまいます。

多言語対応と今後の課題

英語以外の言語での精度確保も大きな課題です。日本語のように文脈依存性が高い言語では、同じ表現でも敬語や文脈で有害性の判定が変わることがあります。また、新しい隠語やスラングは日々生まれるため、分類器の継続的な更新が不可欠です。メインモデルの応答速度を損なわないよう、軽量で高速ながら多言語に対応した分類器の開発が活発に進められています。有害性の検出精度を高めながらも、正当な利用を妨げない――このバランスの追求がセーフティ分類器の研究開発の本質です。