科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理-益华科技

近日，讯飞科大讯飞携手华为在国产算力领域取得重大进展，联合率先双方联合团队率先突破国产算力集群上MoE模型的实现算力大规模跨节点专家并行集群推理，这是国产继DeepSeek公布其MoE模型训练推理方案后，业界首个基于国产算力的大规全新解决方案。

联合团队通过软硬件的模跨深度协同创新，在多个关键技术层面深挖硬件潜力，节点集群完成昇腾集群上的并行验证和部署。在算子融合方面，推理团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水，讯飞并将多个小算子融合重构为原子级计算单元，联合率先消除小算子下发开销，实现算力MLA前处理时延降低50%+，国产实现性能的大规显著提升。

在混合并行策略和通信计算并行优化方面，模跨团队构建了TP（张量并行）+EP（专家并行）混合范式：对MLA计算层采用机内TP并行，发挥机内高速互联优势，WordPress模板降低跨机通信损耗；创新MoE专家分层调度，64卡均衡分配专家计算节点，定制AllToAll通信协议，专家数据交换效率提升40%，构建跨机/机内双层通信架构，通过分层优化降低跨机流量60%；同时研发路由专家负载均衡算法，实现卡间负载差异小于10%，集群吞吐提升30%。

通过分布式架构创新与算法协同优化，联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4，效率提升75%，专家计算密度增加4倍，推理吞吐提升3.2倍，端到端时延降低50%。

这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速，预期训练时推理效率将提升200%。同时，源码库基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。

近期，科大讯飞深度推理大模型星火X1也完成升级，在模型参数量比业界同行少一个数量级的情况下，星火X1的数学能力全面对标DeepSeek R1和OpenAI o1，在中文数学各项任务中均实现领先。科大讯飞始终坚定走国产化道路，星火X1也是当前唯一采用全国产算力训练的深度推理大模型。

科大讯飞将持续迭代升级星火大模型，并通过推理引擎加速为开发者带来更普惠的星火SparkAPI，星火大模型系列API以及星辰MaaS平台上开源的相关模型API成本也将进一步降低，为开发者提供更优惠、更可靠的自主可控新选择。香港云服务器