Anthropic00:00プロンプト活用公式ブログ
Anthropic、監視AIの盲点を突くベンチを公開
“監視モデルもだまされる”前提で、抜け道を減らすテストと改善の回し方を学べます。
ポイント
- 1監視AIの弱点を測るベンチマークを提示
- 2回避的な会話ログで評価できる設計
- 3スキャフォールドやプロンプトでの改善も検討
Anthropicは、監視用AI(危険な会話を見張るモデル)の盲点を調べるSLEIGHT-Benchを公開しました。回避的な会話例を集め、どこで監視がすり抜けるかを測れるようにします。安全フィルタや監視設計を改善するための土台になります。