Future Keyword

AgentPerf

一言でいうと：AgentPerfは、AIエージェントを実務に近い連続作業として走らせ、1つのインフラが同時に何体のエージェントを一定品質で動かせるかを測るベンチマークです。

何を測るものか

一般的なAI推論ベンチマークは、1回の入力に対してモデルがどれだけ速く応答するか、どれだけ多くのリクエストを処理できるかを見ます。AgentPerfはそこから一歩進み、コード修正のようなマルチターンのエージェント作業を再生します。

エージェントは、課題を読み、ファイルを参照し、コードを書き換え、コマンド結果を受け取り、また次の判断をします。こうした長い文脈、短い出力、ツール呼び出し、待ち時間を含むため、単発のチャット応答とは違う負荷がインフラにかかります。

中心になる指標

同時エージェント数：一定の応答品質を保ちながら、同時に何体のエージェントを走らせられるか。
Agents per Megawatt：1メガワットあたり何体のエージェントを動かせるか。電力制約が強いAIインフラでは、とくに重要な効率指標です。
SLO：出力速度や最初のトークンが返るまでの時間など、ユーザー体験として許容できるサービス水準。

なぜ未来キーワードなのか

AIエージェントの競争軸は、単に「どのモデルが賢いか」だけではなくなります。企業が実際に見たいのは、同じ電力、同じ設備、同じコストで、どれだけ多くの仕事を回せるかです。

AgentPerfのような指標が広がると、半導体、データセンター、電力、推論ソフトウェア、クラウド価格の評価がつながります。AIエージェント時代のインフラを読むうえで、重要な補助線になります。

読むときの注意

AgentPerfは「AIエージェントがどれだけ賢いか」を直接測るものではありません。主に、特定のモデルとワークロードを使ったときに、インフラがどれだけ多くのエージェント処理を支えられるかを見るベンチマークです。

また、初期の結果はコーディングエージェントの軌跡を中心にしています。営業、調査、事務処理、カスタマーサポートなど別領域のエージェントでは、負荷の形が変わる可能性があります。

関連するシグナル

AIエージェントの競争は、何体動かせるかに移る

出典

Short Definition AgentPerfは、AIエージェントを実務に近い連続作業として走らせ、同時に何体動かせるかを測るインフラベンチマークです。

Also Known As AA-AgentPerf, Agents per Megawatt, エージェント性能ベンチマーク

Related Themes AI, AI Infrastructure, Semiconductors, Energy

Source artificialanalysis.ai