docs: update coding leaderboard EN with real SWE-bench data 2026-05-16

yanglbme · yanglbme · commit ce49a65131f8 · 2026-05-16T02:11:25.000Z
diff --git a/src/content/en/models/coding.md b/src/content/en/models/coding.md
@@ -2,33 +2,33 @@
 title: "AI Coding Capability Leaderboard"
 icon: "💻"
 tags: [SWE-bench, coding, programming]
-summary: "AI model coding capability rankings based on SWE-bench Verified"
+summary: "AI model coding capability rankings based on SWE-bench Bash-Only"
 data_source: "https://www.swebench.com/"
-benchmarks: [SWE-bench Verified, BigCodeBench, LiveCodeBench]
-last_updated: "2026-05-10"
+benchmarks: [SWE-bench Bash-Only]
+last_updated: "2026-05-16"
 auto_updated: true
-date: "2026-05-10"
+date: "2026-05-16"
 ---
 
 | Rank | Model | Vendor | SWE-bench | Type |
 |---|---|---|---|---|
-| 🥇 | Claude 4 Opus | Anthropic | 78.3% | Closed |
-| 🥈 | GPT-5.5 | OpenAI | 76.1% | Closed |
-| 🥉 | o3 | OpenAI | 74.8% | Closed |
-| 4 | Gemini 3.1 | Google | 72.5% | Closed |
-| 5 | DeepSeek-V4 | DeepSeek | 70.2% | Open |
-| 6 | Claude 4 Sonnet | Anthropic | 68.9% | Closed |
-| 7 | ERNIE 5.1 | Baidu | 67.5% | Closed |
-| 8 | Qwen3-Max | Alibaba | 66.0% | Closed |
-| 9 | GPT-5 | OpenAI | 64.8% | Closed |
-| 10 | Gemini 3.0 | Google | 63.2% | Closed |
-| 11 | Kimi-2 | Moonshot | 62.0% | Closed |
-| 12 | Llama 4 Maverick | Meta | 60.5% | Open |
-| 13 | GLM-5 | Zhipu AI | 59.3% | Closed |
-| 14 | Mistral Large 3 | Mistral | 58.0% | Closed |
-| 15 | Claude 4 Haiku | Anthropic | 56.5% | Closed |
-| 16 | DeepSeek-V3.2 | DeepSeek | 55.0% | Open |
-| 17 | Llama 4 Scout | Meta | 53.8% | Open |
-| 18 | Yi-3 | 01.AI | 52.5% | Open |
-| 19 | Command A | Cohere | 51.0% | Closed |
-| 20 | MiniMax-M2.5 | MiniMax | 50.0% | Closed |
+| 🥇 | Claude 4.5 Opus | Anthropic | 76.8% | Closed |
+| 🥈 | Gemini 3 Flash | Google DeepMind | 75.8% | Closed |
+| 🥉 | MiniMax M2.5 | MiniMax | 75.8% | Closed |
+| 4 | Claude Opus 4.6 | Anthropic | 75.6% | Closed |
+| 5 | Gemini 3 Pro Preview | Google DeepMind | 74.2% | Closed |
+| 6 | GPT-5.2 | OpenAI | 72.8% | Closed |
+| 7 | GLM-5 | Z-AI | 72.8% | Closed |
+| 8 | Claude 4.5 Sonnet | Anthropic | 71.4% | Closed |
+| 9 | Kimi K2.5 | Moonshot AI | 70.8% | Closed |
+| 10 | DeepSeek V3.2 | DeepSeek | 70.0% | Open |
+| 11 | Gemini 3 Pro | Google DeepMind | 69.6% | Closed |
+| 12 | Claude 4 Opus | Anthropic | 67.6% | Closed |
+| 13 | Claude 4.5 Haiku | Anthropic | 66.6% | Closed |
+| 14 | GPT-5.1 | OpenAI | 66.0% | Closed |
+| 15 | GPT-5 | OpenAI | 65.0% | Closed |
+| 16 | Claude 4 Sonnet | Anthropic | 64.9% | Closed |
+| 17 | Kimi K2 Thinking | Moonshot AI | 63.4% | Closed |
+| 18 | MiniMax M2 | MiniMax | 61.0% | Closed |
+| 19 | DeepSeek V3.2 Reasoner | DeepSeek | 60.0% | Open |
+| 20 | GPT-5 mini | OpenAI | 58.4% | Closed |