Anthropic19:09プレスリリース公式X
Anthropic、サブライミナル学習の論文をNature誌に掲載
AIの隠れバイアス検知がしやすくなり、安全運用が進みます。
ポイント
- 1無関係データで特性伝播
- 2好み・ミスアライメントのリスク
- 3Nature誌正式掲載
- 4AI安全研究に寄与
AnthropicがLLMが無関係データ経由で好みやミスアライメントを伝播させるサブライミナル学習の論文をNatureに公開。隠れ信号のリスクを指摘しました。AI安全設計の見直しに役立ちます。
Anthropic、サブライミナル学習の論文をNature誌に掲載
ポイント
AnthropicがLLMが無関係データ経由で好みやミスアライメントを伝播させるサブライミナル学習の論文をNatureに公開。隠れ信号のリスクを指摘しました。AI安全設計の見直しに役立ちます。