OpenAI00:00ポリシー公式ブログ
OpenAIがSWE-bench Verified評価を停止方針
モデル比較のときに「ベンチの点数」をうのみにせず、より信頼できる指標で選びやすくなります。
ポイント
- 1Verifiedは汚染で伸びが実力差になりにくい
- 2テストが正しい解を落とすケースが多い
- 3OpenAIはProの報告を推奨
OpenAIがSWE-bench Verifiedは最先端のコーディング力を測れなくなったと公表しました。テストの欠陥や学習データ混入(汚染)が進み、点数が実力を反映しにくいと説明しています。今後はSWE-bench Proの利用を推奨し、評価設計の見直しが進みそうです。