SynthID水印をOpenAIなどと連携拡大Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援SynthID水印をOpenAIなどと連携拡大Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Goal modeがCodex全プラットフォームで利用開始Codex ThursdayでMac遠隔操作機能追加Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開科学向けAIスキルツールを新公開Gemini 3.5 Flashが公開、研究ツール強化GoogleがADK for Android/Kotlin 0.1.0を公開Google、ADK for Kotlin/Android 0.1.0公開Google、Gemini for Homeを開発者向けに本格展開Gemini 3.5 Flashが正式公開AIが数学の未解決問題を初めて解決Google、Gemini Omniを発表し動画生成・編集を強化Gemini Omniで複数エージェントを活用OpenAIが長期コンピュート保証サービスを導入Gemini for Scienceが研究タスクをAI支援
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← 用語集に戻る

レッドチーミング

Red Teaming

れっどちいみんぐ

解説

レッドチーミングとは、悪用や失敗を想定した攻撃的なテストで、モデルやシステムの弱点を事前に洗い出す活動です。安全な運用の基礎になります。

新しいAIモデルがリリースされる前に、開発チームは「このモデルを悪用しようとしたらどうなるか?」を徹底的にテストします。この攻撃者視点の検証プロセスが、レッドチーミングです。レッドチーミングとは、AIシステムの脆弱性や安全上の問題を発見するために、意図的に悪意のある使い方を試みるテスト手法です。軍事・セキュリティ分野で長い歴史を持つ概念がAI安全性に応用されています。

何をテストするのか

レッドチーミングでは、多角的な攻撃シナリオを試します。ジェイルブレイク攻撃(安全フィルターの回避を試みるプロンプト)、有害コンテンツの誘導(差別的・暴力的な出力を引き出す試み)、情報漏えいの試行(学習データに含まれる個人情報の抽出)、バイアスの検出(特定の属性に対する偏った回答の特定)などが代表的です。

人間とAIのレッドチーミング

レッドチーミングには大きく2つのアプローチがあります。人間によるレッドチーミングでは、セキュリティ専門家や一般ユーザーが創造的な攻撃手法を考案します。人間ならではの直感や社会的文脈の理解により、予想外の脆弱性が見つかることがあります。一方、AIによるレッドチーミングでは、別のAIモデルが大量の攻撃プロンプトを自動生成してテストします。人間では試しきれない膨大なパターンをカバーできる利点があります。

最近では、この両方を組み合わせたハイブリッドアプローチが主流になっています。AIが生成した攻撃パターンを人間が精査・改良し、より効果的なテストを実現します。

開発プロセスへの組み込み

OpenAI、Anthropic、Google DeepMindなどの主要企業は、モデルのリリース前にレッドチーミングを必須プロセスとして実施しています。Anthropicは外部のセキュリティ研究者によるレッドチーミングプログラムを運営し、OpenAIも「Red Teaming Network」を通じて幅広い専門家の知見を取り入れています。

継続的な取り組み

レッドチーミングは一度やれば終わりではなく、継続的に行う必要があります。新しい攻撃手法は常に開発されており、モデルのアップデートごとに新たな脆弱性が生まれる可能性があるためです。AIの安全性を維持するための終わりなき取り組みといえます。