Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Safety Classifier

セーフティ分類器

せえふてぃぶんるいき

Definition

A safety classifier is a detection model that determines whether inputs or outputs violate safety criteria and serves as a core part of guardrails. It helps reduce incidents by filtering risky content.

AIチャットに「爆弾の作り方」と入力すると即座に拒否されますが、「危険物の化学反応について教えて」なら回答されることがあります。この微妙な判断を一瞬で行っているのが、セーフティ分類器(Safety Classifier)です。セーフティ分類器とは、AIへの入力や出力が安全基準に違反していないかを検知・分類する専用のモデルで、ガードレールの中核コンポーネントとしてAIシステムの安全性を支えています。

入力と出力の二重チェック

セーフティ分類器は2つの段階で機能します。入力フィルタリングでは、ユーザーのプロンプトがジェイルブレイク攻撃や違法行為の指示を含んでいないかを、メインモデルが処理する前に判定します。出力フィルタリングでは、モデルが生成した回答が安全基準を満たしているかをユーザーに返す前にチェックします。入力側をすり抜けた攻撃にも出力側で対応できるため、この二重構造が重要です。

代表的な実装

多くのセーフティ分類器はBERT系やLLMベースのモデルをファインチューニングして構築されます。OpenAIのModeration APIは、暴力・自傷行為・性的コンテンツ・ヘイトスピーチなど複数カテゴリに対してスコアを返すAPIとして広く使われています。MetaのLlama Guardはプロンプトと応答の両方を評価でき、オープンソースで利用可能な点が注目されています。AnthropicもClaudeの安全性を支える独自の分類システムを運用しています。

誤検知と見逃しのトレードオフ

最大の課題は偽陽性(安全な内容を有害と判定)と偽陰性(有害な内容を見逃す)のバランスです。閾値を厳しくすれば安全性は上がりますが、医療相談や歴史教育など正当な用途まで制限してしまいます。たとえば「自殺予防の相談」が自傷行為として誤ブロックされるケースは実際に問題となっています。逆に閾値を緩くすると、巧妙なプロンプトインジェクションを通してしまいます。

多言語対応と今後の課題

英語以外の言語での精度確保も大きな課題です。日本語のように文脈依存性が高い言語では、同じ表現でも敬語や文脈で有害性の判定が変わることがあります。また、新しい隠語やスラングは日々生まれるため、分類器の継続的な更新が不可欠です。メインモデルの応答速度を損なわないよう、軽量で高速ながら多言語に対応した分類器の開発が活発に進められています。有害性の検出精度を高めながらも、正当な利用を妨げない――このバランスの追求がセーフティ分類器の研究開発の本質です。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.