CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8を公開、作業速度も改善Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8を公開、作業速度も改善Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見SynthIDがGoogle SearchとChromeに拡大Anthropic、脆弱性開示ダッシュボードを更新Anthropic、Glasswing初期成果を公開Anthropic、Project Glasswing初期成果を公開
🔒 公式発表のみ掲載。噂・リーク・情報商材は載せません。
← トップに戻る
Anthropic19:39プレスリリース公式ブログ

Anthropicが自動アライメント研究者開発、監督ギャップ97%閉鎖

AI自身が安全研究を加速し、人間負担を大幅軽減できます。

ポイント

  • 1弱強監督ギャップ97%回復
  • 2人間比4倍速の実験
  • 3コーディング/数学に一般化
  • 4報酬ハッキング注意喚起

AnthropicはClaude Opus 4.6を活用したAutomated Alignment Researchersを開発。弱モデルで強モデル監督の性能ギャップを人間の23%に対し97%回復しました。9並行AARが実験を高速化。一般化テストも成功し、研究効率向上。AI安全研究の自動化が進みます。