CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8にFast modeを追加AnthropicがClaude Opus 4.8を公開し、作業の切り替えも改善AnthropicがSeries Hで650億ドルを調達AnthropicがClaude Opus 4.8を公開、作業速度も改善OpenAIがGPT-5.5 Instantを読みやすく改良Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8にFast modeを追加AnthropicがClaude Opus 4.8を公開し、作業の切り替えも改善AnthropicがSeries Hで650億ドルを調達AnthropicがClaude Opus 4.8を公開、作業速度も改善OpenAIがGPT-5.5 Instantを読みやすく改良Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見
公式発表のみ掲載。噂・リーク・情報商材は除外します。
← 用語集に戻る

SWE-bench

えすだぶりゅーいーべんち

解説

SWE-benchとは、実際のGitHub課題をもとにAIのソフトウェア修正能力を測るベンチマークです。コーディングエージェントの実力を読む際の代表的な指標です。

AIがコードを書けるかを測るだけなら、短い関数の生成問題で十分に見えるかもしれません。しかし実務の開発では、既存コードを読み、バグの原因を探し、テストに通る修正を作る必要があります。SWE-benchとは、実際のGitHubリポジトリの課題をもとに、AIがソフトウェア修正を完了できるかを測るベンチマークです。

何を測るのか

SWE-benchでは、IssueやPull Requestに近い形式の課題が与えられ、AIはリポジトリを調べて修正パッチを作ります。評価は、用意されたテストに通るかどうかで行われます。単にコード片を書く能力ではなく、コードベース理解、依存関係の把握、原因調査、修正範囲の判断まで含む点が特徴です。

ニュースで見るポイント

コーディングエージェントの発表でSWE-benchスコアが示された場合、どのバージョンや条件で測ったのかを確認します。人間の補助があるのか、複数回試行しているのか、ツール実行を許しているのかで結果は変わります。スコアは有用ですが、特定企業のコードベースで同じ性能が出るとは限りません。

代表的な使われ方

新しいモデルやエージェント基盤が、実務に近い開発タスクでどれくらい進歩したかを示す指標として使われます。特に、コード生成モデルからコーディングエージェントへの進化を説明する文脈で頻出します。

注意点

ベンチマークは実力の一面しか測りません。テストが不十分なら間違った修正でも通る場合があり、逆に実務で有用な改善がベンチマークでは評価されないこともあります。AIニュースでは、SWE-benchを「開発能力の代表的な物差し」として見つつ、実運用のレビューやCIとは分けて考える必要があります。