Anthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini APIAnthropic finds over 10,000 vulnerabilities with Project GlasswingSynthID expands to Google Search and ChromeGoal mode now available across all Codex platformsCodex Thursday adds remote Mac controlAnthropic publishes early Project Glasswing resultsAnthropic updates vulnerability disclosure dashboardReleases new science-focused AI skills toolGemini 3.5 Flash released with enhanced research toolsGoogle launches ADK for Kotlin and Android 0.1.0Gemini 3.5 Flash officially launchedAI solves long-standing open math problem for first timeGoogle announces Gemini Omni for video creationUse multiple agents with Gemini OmniOpenAI Introduces Guaranteed Capacity for Long-Term ComputeGemini for Science assists with research tasksSynthID watermark and verification tool added to AI imagesGoogle I/O 2026 to unveil new AI breakthroughsOpenAI boosts image provenance and verificationKPMG rolls out Claude globally, starting with taxGoogle adds Managed Agents to the Gemini API
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← Back to glossary

Toxicity

有害性

ゆうがいせい

Definition

Toxicity is the degree to which content is harmful—such as discrimination, violence, or harassment—and is targeted by safety evaluation and filtering. It is a key metric for content moderation and guardrails.

SNSでAIチャットボットが差別的な発言を生成して炎上したニュースは、もはや珍しくありません。ユーザーに届く前に有害な出力を検知し防ぐことは、AIサービス運営における最重要課題の一つです。有害性(Toxicity)とは、AIの出力に含まれる差別、暴力、ヘイトスピーチ、侮辱などの有害なコンテンツの度合いを指す概念です。

有害性はなぜ生まれるか

LLMの有害性の根本原因は学習データにあります。インターネット上の膨大なテキストには、ヘイトスピーチや差別的表現が含まれており、モデルはこれらのパターンも学習してしまいます。さらに深刻なのは、学習データに含まれる社会的バイアス(ジェンダーバイアス、人種バイアスなど)が出力に体系的に反映されることです。特定のプロンプトやジェイルブレイク攻撃によって、RLHFで抑制されたはずの有害パターンが再び表出するケースもあります。

明示的有害性と暗示的有害性

有害性には大きく2つのタイプがあります。明示的有害性は侮辱や脅迫など直接的な有害表現で、比較的検出しやすいものです。一方、暗示的有害性はステレオタイプの強化や微妙な差別表現を含み、検出が格段に困難です。たとえば「女性エンジニアにしては優秀ですね」のような表現は、表面上は褒め言葉でも暗示的な差別を含んでいます。セーフティ分類器の精度向上において、この暗示的有害性の検出が大きな課題となっています。

測定ツールとベンチマーク

GoogleのPerspective APIは、テキストの有害性を0〜1のスコアで返すAPIとして広く利用されています。攻撃性・侮辱性・脅迫性など複数の軸でスコアを算出し、コンテンツモデレーションの自動化に活用されています。OpenAIのModeration APIも同様の機能を提供しています。研究分野では、RealToxicityPromptsやBBQ(Bias Benchmark for QA)などのデータセットを使った体系的な評価手法が確立されています。

文脈依存性という根本的な難しさ

有害性の判断で最も困難なのは文脈依存性です。医学的議論での暴力的描写、歴史教育での差別的表現の引用、文学作品の分析など、文脈によっては有害とみなすべきでないケースが数多く存在します。さらに、文化や言語によって有害性の基準は大きく異なります。日本語特有の皮肉表現や、敬語の使い方による暗示的な侮辱など、多言語・多文化対応のモデレーションは未解決の課題であり、この分野の研究は現在も活発に続いています。

h
hayami

Stay on top of OpenAI, Google & Anthropic updates. An AI digest for business professionals.

Source Policy

We use only official sources. Each article links to the original announcement so you can verify it yourself.

© 2026 hayami. All rights reserved.