评测仪表盘
系统工程领域AI模型性能评测与对比分析
为什么要做这个榜单
通用大模型的基准擅长衡量知识广度与语言能力,却无法回答一个更关键的问题:模型能否支撑车规级系统的工程闭环。汽车系统工程是安全关键、强合规、跨学科的复杂体系,产出不仅是"答案",而是可追溯、可审计、可落地的工程工件与决策。本榜单专注于汽车系统工程全生命周期,提供与行业标准对齐、可量化、可复现的评测框架,填补通用榜单无法覆盖的"从文本到工程"的能力鸿沟。
系统工程领域AI模型性能评测与对比分析
评估AI在系统需求分析、编写和管理方面的能力,包括需求提取、规格说明、验证与确认等关键环节。
模型 | 需求工程 | EE架构设计 | 硬件设计 | 软件开发 | 网络通信 | 功能安全 | 信息安全 | 测试与验证 | 项目质量管理 | 工具链与基础设施 | 综合得分 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Keye-VL-671B-A37B | 80 | 92.9 | 88.6 | 78.3 | 87.6 | 84.6 | 86 | 87.5 | 78.4 | 88.3 | 85.2 |
| Kimi-Linear-48B-A3B-Instruct | 67.3 | 69.4 | 68.5 | 65.4 | 65.6 | 63.1 | 69.7 | 65.2 | 65.9 | 68.8 | 66.9 |
| LongCat-Flash-Omni | 78.9 | 91.5 | 86.5 | 75.6 | 84.8 | 81.3 | 83.9 | 84.8 | 76.9 | 86.2 | 83 |
| Moonshot-Kimi-K2-Instruct | 90.1 | 98.5 | 92.1 | 90.7 | 94.8 | 97.6 | 90 | 91.2 | 96.5 | 95.9 | 93.7 |
| Moonshot-Kimi-K2-Thinking | 96.8 | 97.5 | 95.9 | 98.1 | 97.4 | 98.9 | 97.6 | 96.6 | 95.7 | 97.6 | 97.2 |
| deepseek-v3.1 | 90.9 | 96.6 | 92.7 | 89.4 | 93.3 | 90.6 | 96.2 | 92.8 | 88 | 94.1 | 92.5 |
| deepseek-v3.2-exp | 88.2 | 94.2 | 90.4 | 86.6 | 90.7 | 87.3 | 93.9 | 90 | 85.5 | 90.9 | 89.8 |
| glm-4.5 | 82.9 | 84.4 | 79.4 | 81.4 | 79.1 | 85.5 | 80.1 | 80.1 | 76.3 | 82.8 | 81.2 |
| glm-4.5-air | 75.8 | 69.6 | 73.1 | 75.3 | 74.8 | 68.3 | 74.2 | 77.8 | 70.6 | 70.7 | 73 |
| glm-4.6 | 84.8 | 85.6 | 80.9 | 82.2 | 80.1 | 87.7 | 81.2 | 80.9 | 77.3 | 84.8 | 82.5 |
| minimax-m2 | 74.7 | 75.5 | 73.4 | 80.3 | 79.8 | 75.6 | 75.4 | 74.9 | 79.7 | 78 | 76.7 |
| qwen3-235b-a22b-instruct-2507 | 74.8 | 74.9 | 73.1 | 80.4 | 79.8 | 76.1 | 75.3 | 74.6 | 79.7 | 78.4 | 76.7 |
| qwen3-235b-a22b-thinking-2507 | 81.9 | 82 | 80.1 | 74.6 | 74.5 | 80.5 | 80.6 | 77.6 | 79.8 | 76.1 | 78.8 |
| qwen3-32b | 71.4 | 72.8 | 71.6 | 69.8 | 70 | 67 | 73.9 | 68.9 | 70 | 73.4 | 70.9 |
| qwen3-next-80b-a3b-instruct | 75.7 | 67.2 | 72 | 69.2 | 74.8 | 69 | 75.3 | 73 | 71.4 | 66.8 | 71.4 |
| qwen3-next-80b-a3b-thinking | 73.9 | 71.3 | 69.9 | 73.5 | 72 | 73.5 | 75.7 | 73.1 | 72.6 | 69 | 72.5 |