实时追踪全球 AI 模型最新指标排名。
| 排名 | 模型 | 综合 | 代码 | 数学 | 价格 (输入/输出) |
|---|---|---|---|---|---|
| #1 | GPT-5.2 (xhigh) OpenAI Ctx: 400kSOTA | 87.4 | 46.7 | 99 | $1.75 / $14 |
| #2 | Claude Opus 4.5 (Reasoning) Anthropic Ctx: 200kSOTA | 89.5 | 45.8 | 91.3 | $5 / $25 |
| #3 | Gemini 3 Pro Preview (high) Google Ctx: 1MSOTA | 89.8 | 44.7 | 95.7 | $2 / $12 |
| #4 | Gemini 3 Flash Preview (Reasoning) Google Ctx: 1MSOTA | 89 | 41 | 97 | $0.5 / $3 |
| #5 | GPT-5.2 (medium) OpenAI Ctx: 400kSOTA | 85.9 | 42.3 | 96.7 | $1.75 / $14 |
| #6 | Claude Opus 4.5 (Non-reasoning) Anthropic Ctx: 200kSOTA | 88.9 | 41.2 | 62.7 | $5 / $25 |
| #7 | Claude 4.5 Sonnet (Reasoning) Anthropic Ctx: 1MSOTA | 87.5 | 37.1 | 88 | $3 / $15 |
| #8 | GLM-4.7 (Reasoning) Z AI Ctx: 200kSOTA | 85.6 | 34.9 | 95 | $0.6 / $2.2 |
| #9 | GPT-5.1 Codex (high) OpenAI Ctx: 400kSOTA | 86 | 35.1 | 95.7 | $1.25 / $10 |
| #10 | Grok 4 xAI Ctx: 256kSOTA | 86.6 | 40.3 | 92.7 | $3 / $15 |
| #11 | DeepSeek V3.2 (Reasoning) DeepSeek Ctx: 128kSOTA | 86.2 | 35.2 | 92 | $0.27 / $0.42 |
| #12 | GPT-5 mini (high) OpenAI Ctx: 400kModel | 83.7 | 33.9 | 90.7 | $0.25 / $2 |
| #13 | Gemini 3 Pro Preview (low) Google Ctx: 1MSOTA | 89.5 | 37.9 | 86.7 | $2 / $12 |
| #14 | Kimi K2 Thinking Kimi Ctx: 256kModel | 84.8 | 33.5 | 94.7 | $1.15 / $8 |
| #15 | MiniMax-M2.1 MiniMax Ctx: 205kSOTA | 87.5 | 31.6 | 82.7 | $0.3 / $1.2 |
驱动 Copilot 的核心模型,提供原始 API 访问,擅长将自然语言转化为代码,支持多语言。
行业标准 AI 助手,深度集成 VS Code/JetBrains,新增 Agent 模式可自主完成复杂任务。
AI 原生编辑器,以其深度上下文理解和 Agent 模式著称,支持多模型切换 (Claude 3.5/GPT-4)。
Google 推出的 Agent-first IDE,内置 Manager 与 Editor 视图,通过 AI Agent 能够自主完成复杂的工程任务。
主打 Flow 心流模式的新一代 AI IDE,Cascade 引擎支持多模型协作与深层代码理解。
Anthropic 推出的终端 Agent 工具,擅长理解复杂逻辑、调试及执行 Shell 命令,极其硬核。