GPT-Redでプロンプトインジェクション耐性が大幅向上 GPT-5.6で業務全体を1リクエストで完了しやすくなります会話から作業まで一段賢いモデルを選びやすくなりますブラウザだけでAI推論を動かして待ち時間を減らせます Claudeの使い方を振り返って無駄を減らせます長い作業を下書きから資料化まで一気に進めやすくなります大きくなるモデルの安全確認ルールを最新版で追えます GoogleのGemini APIで動画生成と編集の流れが短くなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります GPT-Redでプロンプトインジェクション耐性が大幅向上 GPT-5.6で業務全体を1リクエストで完了しやすくなります会話から作業まで一段賢いモデルを選びやすくなりますブラウザだけでAI推論を動かして待ち時間を減らせます Claudeの使い方を振り返って無駄を減らせます長い作業を下書きから資料化まで一気に進めやすくなります大きくなるモデルの安全確認ルールを最新版で追えます GoogleのGemini APIで動画生成と編集の流れが短くなります日常業務の多段階作業を安価に自動化しやすくなります ClaudeをAWS経由で導入しやすくなります使い止めになっていたClaude Fable 5を再び利用できます研究資料と解析作業を一つの作業台に集めやすくなります日常のコード作業をClaudeに広く任せやすくなります生物研究の曖昧な判断をAIエージェントが扱えるか測れますコーディングや業務作業をより強く任せやすくなります HPとの連携で業務導入を広げやすくなりましたチーム全員でClaudeを呼び出して作業を任せられます Slack上の依頼をClaudeにそのまま渡しやすくなります機密データを守りながらAI処理を進めやすくなります Gemini APIの鍵管理を安全な方式へ移しやすくなります

公式発表のみ掲載。噂・リーク・情報商材は除外します。

← 用語集に戻る

用語集AI用語

能力評価

Capability Evaluation

けいぱびりてぃひょうか

解説

能力評価とは、AIモデルがどのタスクをどの程度こなせるかを、ベンチマーク、専門家評価、レッドチーミングなどで測る取り組みです。安全性評価の前提にもなります。

AIモデルの発表では、ベンチマーク点数やデモが目立ちます。しかし、モデルが実際に何をどこまでできるのかを理解するには、より体系的な評価が必要です。能力評価とは、AIモデルの能力をタスク別に測り、性能、限界、リスクを把握するための評価プロセスです。

何を評価するのか

能力評価では、知識、推論、コード、数学、画像理解、音声、ツール利用、長文処理、計画立案などを対象にします。標準ベンチマークだけでなく、専門家が作るテスト、実務タスク、レッドチーミング、ユーザー調査を組み合わせることがあります。単一の点数ではなく、どの条件で強く、どの条件で弱いかを把握するのが目的です。

ニュースで見るポイント

能力評価の結果を見るときは、テストセットの内容、汚染の可能性、評価者、プロンプト条件、ツール利用の有無を確認します。モデル比較では、同じ条件で測っているかが重要です。特定ベンチマークの高得点だけで、実務品質や安全性を断定するのは危険です。

代表的な使われ方

モデルリリース前の安全審査、製品機能の品質確認、導入先企業でのPoC、規制対応、フロンティアモデルのリスク分類などで使われます。Responsible Scaling Policyのような安全方針では、能力評価が次の判断を決める前提になります。

注意点

能力評価は常に不完全です。評価対象外の能力が後から見つかることもあり、実運用ではユーザー行動やツール接続によって結果が変わります。AIニュースでは、評価結果を「モデルの全体像」ではなく「特定条件での測定」として読むことが大切です。