docs: update SWE-bench coding leaderboard with real data 2026-05-23

yanglbme · yanglbme · commit 629d301e5b89 · 2026-05-23T02:44:00.000Z
diff --git a/src/content/models/coding.md b/src/content/models/coding.md
@@ -5,30 +5,29 @@ tags: [SWE-bench, 代码, 编程]
 summary: "基于 SWE-bench Bash-Only 的 AI 模型代码能力排名"
 data_source: "https://www.swebench.com/"
 benchmarks: [SWE-bench Bash-Only]
-last_updated: "2026-05-16"
+last_updated: "2026-05-23"
 auto_updated: true
-date: "2026-05-16"
+date: "2026-05-23"
 ---
 
+> 数据来源：SWE-bench 官方 Bash-Only 排行榜（mini-SWE-agent v2.0.0，500 个实例，单次尝试）。数据获取于 2026 年 2 月。LMSYS Chatbot Arena 等排行榜因网络限制暂时无法获取。
+
 | 排名 | 模型 | 厂商 | SWE-bench | 类型 |
 | --- | --- | --- | --- | --- |
 | 🥇 | Claude 4.5 Opus | Anthropic | 76.8% | 闭源 |
 | 🥈 | Gemini 3 Flash | Google DeepMind | 75.8% | 闭源 |
 | 🥉 | MiniMax M2.5 | MiniMax | 75.8% | 闭源 |
 | 4 | Claude Opus 4.6 | Anthropic | 75.6% | 闭源 |
-| 5 | Gemini 3 Pro Preview | Google DeepMind | 74.2% | 闭源 |
-| 6 | GPT-5.2 | OpenAI | 72.8% | 闭源 |
+| 5 | Claude 4.5 Opus (medium) | Anthropic | 74.4% | 闭源 |
+| 6 | Gemini 3 Pro Preview | Google DeepMind | 74.2% | 闭源 |
 | 7 | GLM-5 | Z-AI | 72.8% | 闭源 |
-| 8 | Claude 4.5 Sonnet | Anthropic | 71.4% | 闭源 |
-| 9 | Kimi K2.5 | Moonshot AI | 70.8% | 闭源 |
-| 10 | DeepSeek V3.2 | DeepSeek | 70.0% | 开源 |
-| 11 | Gemini 3 Pro | Google DeepMind | 69.6% | 闭源 |
-| 12 | Claude 4 Opus | Anthropic | 67.6% | 闭源 |
-| 13 | Claude 4.5 Haiku | Anthropic | 66.6% | 闭源 |
-| 14 | GPT-5.1 | OpenAI | 66.0% | 闭源 |
-| 15 | GPT-5 | OpenAI | 65.0% | 闭源 |
-| 16 | Claude 4 Sonnet | Anthropic | 64.9% | 闭源 |
-| 17 | Kimi K2 Thinking | Moonshot AI | 63.4% | 闭源 |
-| 18 | MiniMax M2 | MiniMax | 61.0% | 闭源 |
-| 19 | DeepSeek V3.2 Reasoner | DeepSeek | 60.0% | 开源 |
-| 20 | GPT-5 mini | OpenAI | 58.4% | 闭源 |
+| 8 | GPT-5.2 | OpenAI | 72.8% | 闭源 |
+| 9 | Claude 4.5 Sonnet | Anthropic | 71.4% | 闭源 |
+| 10 | Kimi K2.5 | Moonshot AI | 70.8% | 闭源 |
+| 11 | DeepSeek V3.2 | DeepSeek | 70.0% | 开源 |
+| 12 | Gemini 3 Pro | Google DeepMind | 69.6% | 闭源 |
+| 13 | Claude 4 Opus | Anthropic | 67.6% | 闭源 |
+| 14 | Claude 4.5 Haiku | Anthropic | 66.6% | 闭源 |
+| 15 | GPT-5.1 | OpenAI | 66.0% | 闭源 |
+| 16 | GPT-5 | OpenAI | 65.0% | 闭源 |
+| 17 | Claude 4 Sonnet | Anthropic | 64.9% | 闭源 |