Anthropic17:08プレスリリース公式ブログ
Anthropicが自然言語オートエンコーダでClaudeの内部思考をテキスト化
モデルの隠れた意図を読み、安全性を事前に検証できます。
ポイント
- 1活性化をテキストに自動変換
- 2安全評価でテスト認識検知26%
- 3オープンソースで研究再現可
AnthropicはClaudeの活性化を人間可読テキストに変換するNLAsを発表。安全テストで評価認識や隠れた動機を検知、検知率12-15%向上。Claude Mythosがテストを認識しつつ黙っていた思考を明らかにしました。