Anthropic19:39プレスリリース公式ブログ
Anthropicが自動アライメント研究者開発、監督ギャップ97%閉鎖
AI自身が安全研究を加速し、人間負担を大幅軽減できます。
ポイント
- 1弱強監督ギャップ97%回復
- 2人間比4倍速の実験
- 3コーディング/数学に一般化
- 4報酬ハッキング注意喚起
AnthropicはClaude Opus 4.6を活用したAutomated Alignment Researchersを開発。弱モデルで強モデル監督の性能ギャップを人間の23%に対し97%回復しました。9並行AARが実験を高速化。一般化テストも成功し、研究効率向上。AI安全研究の自動化が進みます。