Anthropic00:00ポリシー公式ブログ
AnthropicがClaudeの蒸留攻撃対策を公開
AIの不正利用が起きうる前提で、監視や本人確認などの対策強化を理解できます。
ポイント
- 1蒸留攻撃(出力を集めて学習に悪用)を説明
- 2不正アカウント約2.4万を検知
- 3約1600万回のやり取りを確認
- 4検知・共有・アクセス制御を強化
Anthropicが、Claudeの出力を不正に集めて別モデルを強化する「蒸留攻撃」への対策を公開しました。約2.4万の不正アカウントと約1600万回のやり取りを検知したとしています。AIの悪用対策が、製品品質と同じくらい重要になっています。