OpenAI20:07ポリシー公式ブログ
OpenAI、思考連鎖制御の評価スイートを公開
AIの内部思考を監視しやすくなり、安全運用が簡単になります
ポイント
- 1CoT-Control: 13,000タスク超のオープンソース評価
- 2制御率0.1-15.4%、監視有効
- 3大規模モデルで制御向上、長思考で低下
OpenAIがCoT-Controlという評価スイートを公開しました。13以上のベンチマークで13モデルをテストし、思考連鎖(CoT)を隠蔽する能力が低いことを確認。モデル規模が大きくなるほど制御しやすくなる一方、長思考では難しく、安全監視に有効です。業務ではAIエージェントの行動監視が信頼できます。