SWE-bench
えすだぶりゅーいーべんち
解説
SWE-benchとは、実際のGitHub課題をもとにAIのソフトウェア修正能力を測るベンチマークです。コーディングエージェントの実力を読む際の代表的な指標です。
AIがコードを書けるかを測るだけなら、短い関数の生成問題で十分に見えるかもしれません。しかし実務の開発では、既存コードを読み、バグの原因を探し、テストに通る修正を作る必要があります。SWE-benchとは、実際のGitHubリポジトリの課題をもとに、AIがソフトウェア修正を完了できるかを測るベンチマークです。
何を測るのか
SWE-benchでは、IssueやPull Requestに近い形式の課題が与えられ、AIはリポジトリを調べて修正パッチを作ります。評価は、用意されたテストに通るかどうかで行われます。単にコード片を書く能力ではなく、コードベース理解、依存関係の把握、原因調査、修正範囲の判断まで含む点が特徴です。
ニュースで見るポイント
コーディングエージェントの発表でSWE-benchスコアが示された場合、どのバージョンや条件で測ったのかを確認します。人間の補助があるのか、複数回試行しているのか、ツール実行を許しているのかで結果は変わります。スコアは有用ですが、特定企業のコードベースで同じ性能が出るとは限りません。
代表的な使われ方
新しいモデルやエージェント基盤が、実務に近い開発タスクでどれくらい進歩したかを示す指標として使われます。特に、コード生成モデルからコーディングエージェントへの進化を説明する文脈で頻出します。
注意点
ベンチマークは実力の一面しか測りません。テストが不十分なら間違った修正でも通る場合があり、逆に実務で有用な改善がベンチマークでは評価されないこともあります。AIニュースでは、SWE-benchを「開発能力の代表的な物差し」として見つつ、実運用のレビューやCIとは分けて考える必要があります。