一言でいうと:AgentPerfは、AIエージェントを実務に近い連続作業として走らせ、1つのインフラが同時に何体のエージェントを一定品質で動かせるかを測るベンチマークです。
何を測るものか
一般的なAI推論ベンチマークは、1回の入力に対してモデルがどれだけ速く応答するか、どれだけ多くのリクエストを処理できるかを見ます。AgentPerfはそこから一歩進み、コード修正のようなマルチターンのエージェント作業を再生します。
エージェントは、課題を読み、ファイルを参照し、コードを書き換え、コマンド結果を受け取り、また次の判断をします。こうした長い文脈、短い出力、ツール呼び出し、待ち時間を含むため、単発のチャット応答とは違う負荷がインフラにかかります。
中心になる指標
- 同時エージェント数:一定の応答品質を保ちながら、同時に何体のエージェントを走らせられるか。
- Agents per Megawatt:1メガワットあたり何体のエージェントを動かせるか。電力制約が強いAIインフラでは、とくに重要な効率指標です。
- SLO:出力速度や最初のトークンが返るまでの時間など、ユーザー体験として許容できるサービス水準。
なぜ未来キーワードなのか
AIエージェントの競争軸は、単に「どのモデルが賢いか」だけではなくなります。企業が実際に見たいのは、同じ電力、同じ設備、同じコストで、どれだけ多くの仕事を回せるかです。
AgentPerfのような指標が広がると、半導体、データセンター、電力、推論ソフトウェア、クラウド価格の評価がつながります。AIエージェント時代のインフラを読むうえで、重要な補助線になります。
読むときの注意
AgentPerfは「AIエージェントがどれだけ賢いか」を直接測るものではありません。主に、特定のモデルとワークロードを使ったときに、インフラがどれだけ多くのエージェント処理を支えられるかを見るベンチマークです。
また、初期の結果はコーディングエージェントの軌跡を中心にしています。営業、調査、事務処理、カスタマーサポートなど別領域のエージェントでは、負荷の形が変わる可能性があります。