GPT-Liveで自然な音声会話がいつでも始められます大きくなるモデルの安全確認ルールを最新版で追えます会話しながら操作できるChatGPT音声でやり取りが自然になります会議や旅行で自然に話しながら翻訳しやすくなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります研究用ツールをまとめて使い、実験と記録を進めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります防御側が脆弱性確認と修正を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります Google Home Speakerで家の操作が自然になります Claudeを韓国企業や研究機関へ広げやすくなります GPT-Liveで自然な音声会話がいつでも始められます大きくなるモデルの安全確認ルールを最新版で追えます会話しながら操作できるChatGPT音声でやり取りが自然になります会議や旅行で自然に話しながら翻訳しやすくなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります研究用ツールをまとめて使い、実験と記録を進めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります防御側が脆弱性確認と修正を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります Google Home Speakerで家の操作が自然になります Claudeを韓国企業や研究機関へ広げやすくなります

公式発表のみ掲載。噂・リーク・情報商材は除外します。

← トップに戻る

AI要約OpenAIポリシー00:00

AIが複数ソースを照合して要約

OpenAIがSWE-bench Verified評価を停止方針

モデル比較のときに「ベンチの点数」をうのみにせず、より信頼できる指標で選びやすくなります。

参照確認

参照ソース 1件

確認済み

参照ソース

主要ソース / openai.com

公式ブログ

要点整理

1Verifiedは汚染で伸びが実力差になりにくい
2テストが正しい解を落とすケースが多い
3OpenAIはProの報告を推奨

OpenAIがSWE-bench Verifiedは最先端のコーディング力を測れなくなったと公表しました。テストの欠陥や学習データ混入（汚染）が進み、点数が実力を反映しにくいと説明しています。今後はSWE-bench Proの利用を推奨し、評価設計の見直しが進みそうです。

何が起きたか

OpenAIがSWE-bench Verifiedは最先端のコーディング力を測れなくなったと公表しました。テストの欠陥や学習データ混入（汚染）が進み、点数が実力を反映しにくいと説明しています。今後はSWE-bench Proの利用を推奨し、評価設計の見直しが進みそうです。

なぜ重要か

モデル比較のときに「ベンチの点数」をうのみにせず、より信頼できる指標で選びやすくなります。

使う人への影響

モデル比較のときに「ベンチの点数」をうのみにせず、より信頼できる指標で選びやすくなります。確認ポイントは、Verifiedは汚染で伸びが実力差になりにくい / テストが正しい解を落とすケースが多い / OpenAIはProの報告を推奨です。