评测仪表盘

系统工程领域AI模型性能评测与对比分析

为什么要做这个榜单

通用大模型的基准擅长衡量知识广度与语言能力，却无法回答一个更关键的问题：模型能否支撑车规级系统的工程闭环。汽车系统工程是安全关键、强合规、跨学科的复杂体系，产出不仅是"答案"，而是可追溯、可审计、可落地的工程工件与决策。本榜单专注于汽车系统工程全生命周期，提供与行业标准对齐、可量化、可复现的评测框架，填补通用榜单无法覆盖的"从文本到工程"的能力鸿沟。

模型能力雷达图

多维度模型性能对比 - 系统工程领域

领域表现对比

选择不同领域查看模型得分详细对比

需求工程

评估AI在系统需求分析、编写和管理方面的能力，包括需求提取、规格说明、验证与确认等关键环节。

评测重点

需求提取与分析
需求规格编写
需求验证
需求追踪管理

需求工程

模型性能对比表

16 个模型

详细的数值对比与排名 - 点击列头进行排序

模型	需求工程	EE架构设计	硬件设计	软件开发	网络通信	功能安全	信息安全	测试与验证	项目质量管理	工具链与基础设施	综合得分
Keye-VL-671B-A37B	80	92.9	88.6	78.3	87.6	84.6	86	87.5	78.4	88.3	85.2
Kimi-Linear-48B-A3B-Instruct	67.3	69.4	68.5	65.4	65.6	63.1	69.7	65.2	65.9	68.8	66.9
LongCat-Flash-Omni	78.9	91.5	86.5	75.6	84.8	81.3	83.9	84.8	76.9	86.2	83
Moonshot-Kimi-K2-Instruct	90.1	98.5	92.1	90.7	94.8	97.6	90	91.2	96.5	95.9	93.7
Moonshot-Kimi-K2-Thinking	96.8	97.5	95.9	98.1	97.4	98.9	97.6	96.6	95.7	97.6	97.2
deepseek-v3.1	90.9	96.6	92.7	89.4	93.3	90.6	96.2	92.8	88	94.1	92.5
deepseek-v3.2-exp	88.2	94.2	90.4	86.6	90.7	87.3	93.9	90	85.5	90.9	89.8
glm-4.5	82.9	84.4	79.4	81.4	79.1	85.5	80.1	80.1	76.3	82.8	81.2
glm-4.5-air	75.8	69.6	73.1	75.3	74.8	68.3	74.2	77.8	70.6	70.7	73
glm-4.6	84.8	85.6	80.9	82.2	80.1	87.7	81.2	80.9	77.3	84.8	82.5
minimax-m2	74.7	75.5	73.4	80.3	79.8	75.6	75.4	74.9	79.7	78	76.7
qwen3-235b-a22b-instruct-2507	74.8	74.9	73.1	80.4	79.8	76.1	75.3	74.6	79.7	78.4	76.7
qwen3-235b-a22b-thinking-2507	81.9	82	80.1	74.6	74.5	80.5	80.6	77.6	79.8	76.1	78.8
qwen3-32b	71.4	72.8	71.6	69.8	70	67	73.9	68.9	70	73.4	70.9
qwen3-next-80b-a3b-instruct	75.7	67.2	72	69.2	74.8	69	75.3	73	71.4	66.8	71.4
qwen3-next-80b-a3b-thinking	73.9	71.3	69.9	73.5	72	73.5	75.7	73.1	72.6	69	72.5