GPT-Redでプロンプトインジェクション耐性が大幅向上 GPT-5.6で業務全体を1リクエストで完了しやすくなります会話から作業まで一段賢いモデルを選びやすくなりますブラウザだけでAI推論を動かして待ち時間を減らせます Claudeの使い方を振り返って無駄を減らせます長い作業を下書きから資料化まで一気に進めやすくなります大きくなるモデルの安全確認ルールを最新版で追えます GoogleのGemini APIで動画生成と編集の流れが短くなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります GPT-Redでプロンプトインジェクション耐性が大幅向上 GPT-5.6で業務全体を1リクエストで完了しやすくなります会話から作業まで一段賢いモデルを選びやすくなりますブラウザだけでAI推論を動かして待ち時間を減らせます Claudeの使い方を振り返って無駄を減らせます長い作業を下書きから資料化まで一気に進めやすくなります大きくなるモデルの安全確認ルールを最新版で追えます GoogleのGemini APIで動画生成と編集の流れが短くなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります

公式発表のみ掲載。噂・リーク・情報商材は除外します。

← 用語集に戻る

用語集AI用語

SWE-bench

えすだぶりゅーいーべんち

解説

SWE-benchとは、実際のGitHub課題をもとにAIのソフトウェア修正能力を測るベンチマークです。コーディングエージェントの実力を読む際の代表的な指標です。

AIがコードを書けるかを測るだけなら、短い関数の生成問題で十分に見えるかもしれません。しかし実務の開発では、既存コードを読み、バグの原因を探し、テストに通る修正を作る必要があります。SWE-benchとは、実際のGitHubリポジトリの課題をもとに、AIがソフトウェア修正を完了できるかを測るベンチマークです。

何を測るのか

SWE-benchでは、IssueやPull Requestに近い形式の課題が与えられ、AIはリポジトリを調べて修正パッチを作ります。評価は、用意されたテストに通るかどうかで行われます。単にコード片を書く能力ではなく、コードベース理解、依存関係の把握、原因調査、修正範囲の判断まで含む点が特徴です。

ニュースで見るポイント

コーディングエージェントの発表でSWE-benchスコアが示された場合、どのバージョンや条件で測ったのかを確認します。人間の補助があるのか、複数回試行しているのか、ツール実行を許しているのかで結果は変わります。スコアは有用ですが、特定企業のコードベースで同じ性能が出るとは限りません。

代表的な使われ方

新しいモデルやエージェント基盤が、実務に近い開発タスクでどれくらい進歩したかを示す指標として使われます。特に、コード生成モデルからコーディングエージェントへの進化を説明する文脈で頻出します。

注意点

ベンチマークは実力の一面しか測りません。テストが不十分なら間違った修正でも通る場合があり、逆に実務で有用な改善がベンチマークでは評価されないこともあります。AIニュースでは、SWE-benchを「開発能力の代表的な物差し」として見つつ、実運用のレビューやCIとは分けて考える必要があります。