Toxicity

有害性

ゆうがいせい

Definition

Toxicity is the degree to which content is harmful—such as discrimination, violence, or harassment—and is targeted by safety evaluation and filtering. It is a key metric for content moderation and guardrails.

SNSでAIチャットボットが差別的な発言を生成して炎上したニュースは、もはや珍しくありません。ユーザーに届く前に有害な出力を検知し防ぐことは、AIサービス運営における最重要課題の一つです。有害性（Toxicity）とは、AIの出力に含まれる差別、暴力、ヘイトスピーチ、侮辱などの有害なコンテンツの度合いを指す概念です。

有害性はなぜ生まれるか

LLMの有害性の根本原因は学習データにあります。インターネット上の膨大なテキストには、ヘイトスピーチや差別的表現が含まれており、モデルはこれらのパターンも学習してしまいます。さらに深刻なのは、学習データに含まれる社会的バイアス（ジェンダーバイアス、人種バイアスなど）が出力に体系的に反映されることです。特定のプロンプトやジェイルブレイク攻撃によって、RLHFで抑制されたはずの有害パターンが再び表出するケースもあります。

明示的有害性と暗示的有害性

有害性には大きく2つのタイプがあります。明示的有害性は侮辱や脅迫など直接的な有害表現で、比較的検出しやすいものです。一方、暗示的有害性はステレオタイプの強化や微妙な差別表現を含み、検出が格段に困難です。たとえば「女性エンジニアにしては優秀ですね」のような表現は、表面上は褒め言葉でも暗示的な差別を含んでいます。セーフティ分類器の精度向上において、この暗示的有害性の検出が大きな課題となっています。

測定ツールとベンチマーク

GoogleのPerspective APIは、テキストの有害性を0〜1のスコアで返すAPIとして広く利用されています。攻撃性・侮辱性・脅迫性など複数の軸でスコアを算出し、コンテンツモデレーションの自動化に活用されています。OpenAIのModeration APIも同様の機能を提供しています。研究分野では、RealToxicityPromptsやBBQ（Bias Benchmark for QA）などのデータセットを使った体系的な評価手法が確立されています。

文脈依存性という根本的な難しさ

有害性の判断で最も困難なのは文脈依存性です。医学的議論での暴力的描写、歴史教育での差別的表現の引用、文学作品の分析など、文脈によっては有害とみなすべきでないケースが数多く存在します。さらに、文化や言語によって有害性の基準は大きく異なります。日本語特有の皮肉表現や、敬語の使い方による暗示的な侮辱など、多言語・多文化対応のモデレーションは未解決の課題であり、この分野の研究は現在も活発に続いています。