CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8にFast modeを追加AnthropicがClaude Opus 4.8を公開し、作業の切り替えも改善AnthropicがSeries Hで650億ドルを調達AnthropicがClaude Opus 4.8を公開、作業速度も改善OpenAIがGPT-5.5 Instantを読みやすく改良Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見CodexがWindows PCを直接操作可能にOpenAIがRosalind Biodefenseを発表Anthropic、Series Hで650億ドル調達AnthropicがSeries Hで650億ドル調達Claude Opus 4.8が本日全プラットフォームで利用開始Claude Opus 4.8がウェブとAPIで利用可能にAnthropicがClaude Opus 4.8にFast modeを追加AnthropicがClaude Opus 4.8を公開し、作業の切り替えも改善AnthropicがSeries Hで650億ドルを調達AnthropicがClaude Opus 4.8を公開、作業速度も改善OpenAIがGPT-5.5 Instantを読みやすく改良Claude Codeに動的ワークフローを研究プレビュー追加Gemini Omniで会話編集が可能にOpenAIが2026年選挙向け対策を公開、誤情報対策を強化SynthID水印をOpenAIなどと連携拡大Anthropic、Responsible Scaling Policyを更新(v3.2)OpenAIがChatGPTの広告ポリシーを更新し基準を追加AnthropicがClaudeの「封じ込め」設計を公開Google DeepMindシンガポールAI安全パートナーシップ拡大Anthropic、Project Glasswingで1万件超の脆弱性を発見
公式発表のみ掲載。噂・リーク・情報商材は除外します。
← 用語集に戻る

能力評価

Capability Evaluation

けいぱびりてぃひょうか

解説

能力評価とは、AIモデルがどのタスクをどの程度こなせるかを、ベンチマーク、専門家評価、レッドチーミングなどで測る取り組みです。安全性評価の前提にもなります。

AIモデルの発表では、ベンチマーク点数やデモが目立ちます。しかし、モデルが実際に何をどこまでできるのかを理解するには、より体系的な評価が必要です。能力評価とは、AIモデルの能力をタスク別に測り、性能、限界、リスクを把握するための評価プロセスです。

何を評価するのか

能力評価では、知識、推論、コード、数学、画像理解、音声、ツール利用、長文処理、計画立案などを対象にします。標準ベンチマークだけでなく、専門家が作るテスト、実務タスク、レッドチーミング、ユーザー調査を組み合わせることがあります。単一の点数ではなく、どの条件で強く、どの条件で弱いかを把握するのが目的です。

ニュースで見るポイント

能力評価の結果を見るときは、テストセットの内容、汚染の可能性、評価者、プロンプト条件、ツール利用の有無を確認します。モデル比較では、同じ条件で測っているかが重要です。特定ベンチマークの高得点だけで、実務品質や安全性を断定するのは危険です。

代表的な使われ方

モデルリリース前の安全審査、製品機能の品質確認、導入先企業でのPoC、規制対応、フロンティアモデルのリスク分類などで使われます。Responsible Scaling Policyのような安全方針では、能力評価が次の判断を決める前提になります。

注意点

能力評価は常に不完全です。評価対象外の能力が後から見つかることもあり、実運用ではユーザー行動やツール接続によって結果が変わります。AIニュースでは、評価結果を「モデルの全体像」ではなく「特定条件での測定」として読むことが大切です。