Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援AI生成画像にSynthID透かしと検証ツール追加
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

有害性

Toxicity

ゆうがいせい

解説

有害性とは、差別・暴力・嫌がらせなど人に害を与える内容の度合いで、安全性評価やフィルタリングの対象になります。安全な運用の基礎になります。

SNSでAIチャットボットが差別的な発言を生成して炎上したニュースは、もはや珍しくありません。ユーザーに届く前に有害な出力を検知し防ぐことは、AIサービス運営における最重要課題の一つです。有害性(Toxicity)とは、AIの出力に含まれる差別、暴力、ヘイトスピーチ、侮辱などの有害なコンテンツの度合いを指す概念です。

有害性はなぜ生まれるか

LLMの有害性の根本原因は学習データにあります。インターネット上の膨大なテキストには、ヘイトスピーチや差別的表現が含まれており、モデルはこれらのパターンも学習してしまいます。さらに深刻なのは、学習データに含まれる社会的バイアス(ジェンダーバイアス、人種バイアスなど)が出力に体系的に反映されることです。特定のプロンプトやジェイルブレイク攻撃によって、RLHFで抑制されたはずの有害パターンが再び表出するケースもあります。

明示的有害性と暗示的有害性

有害性には大きく2つのタイプがあります。明示的有害性は侮辱や脅迫など直接的な有害表現で、比較的検出しやすいものです。一方、暗示的有害性はステレオタイプの強化や微妙な差別表現を含み、検出が格段に困難です。たとえば「女性エンジニアにしては優秀ですね」のような表現は、表面上は褒め言葉でも暗示的な差別を含んでいます。セーフティ分類器の精度向上において、この暗示的有害性の検出が大きな課題となっています。

測定ツールとベンチマーク

GoogleのPerspective APIは、テキストの有害性を0〜1のスコアで返すAPIとして広く利用されています。攻撃性・侮辱性・脅迫性など複数の軸でスコアを算出し、コンテンツモデレーションの自動化に活用されています。OpenAIのModeration APIも同様の機能を提供しています。研究分野では、RealToxicityPromptsやBBQ(Bias Benchmark for QA)などのデータセットを使った体系的な評価手法が確立されています。

文脈依存性という根本的な難しさ

有害性の判断で最も困難なのは文脈依存性です。医学的議論での暴力的描写、歴史教育での差別的表現の引用、文学作品の分析など、文脈によっては有害とみなすべきでないケースが数多く存在します。さらに、文化や言語によって有害性の基準は大きく異なります。日本語特有の皮肉表現や、敬語の使い方による暗示的な侮辱など、多言語・多文化対応のモデレーションは未解決の課題であり、この分野の研究は現在も活発に続いています。