「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图

2024年12月20日,摩尔线程首届MUSA开发者大会在北京召开。站在台上发布新架构的张建中,神色平静地勾勒出一张令业界瞩目的蓝图:从千卡到万卡,从十万卡到五十万卡,最终构建百万卡级别的智算集群。这不是天方夜谭,而是一家国产GPU企业基于技术演进的真实规划。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

三年三迭代:架构升级的底层逻辑

摩尔线程的技术路线图清晰而激进。2022年发布春晓架构,对应产品为S3000;2023年推出曲院架构,搭载S4000;2024年平湖架构落地,S5000面世。这种一年一迭代的节奏,与行业标杆英伟达的迭代策略如出一辙。业界因此将摩尔线程视为国内GPU公司中最像英伟达的一家。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

2024年新发布的花港架构,算力密度较前代提升50%。这一数字的意义在于:通过芯片微架构层面的深度优化,在同等功耗和面积约束下实现了更高的计算吞吐。更关键的是,花港架构支持从FP4到FP64的全精度计算,这种全覆盖的精度支持意味着摩尔线程的产品能够覆盖从边缘推理到科学计算的各类场景。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

新三芯:产品矩阵的完整拼图

此次发布的三款芯片各司其职。华山定位AI训推一体芯片,这是当前大模型训练和推理场景的核心需求;庐山专注图形渲染,面向视觉计算场景;长江则是系统级SoC,用于终端和嵌入式场景。三款芯片的定位形成互补,构成了完整的产品矩阵。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

值得注意的是,华山开始支持FP4精度。FP4作为一种超低精度格式,能够在保证模型输出质量的前提下大幅提升计算效率。英伟达Blackwell系列同样支持FP4,这说明摩尔线程在精度支持上已与国际巨头同步。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

性能实测:S5000与竞品的对标数据

张建中首次披露了S5000的实测性能。在DeepSeek-R1全量模型分布式推理场景中,S5000的PrefillOnly吞吐量达到H20的约2.5倍,Decode单卡吞吐量约为H20的1.3倍。这些数据来自实际的分布式推理场景,具有较高的参考价值。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

对比更早的S4000与A10080GBPCle:S4000在FP32精度下算力为25TFLOPS,FP16下为98TFLOPS,INT8下为196TOPS;A100对应数据为19.5TFLOPS、312TFLOPS、624TOPS。从数字看,S4000在FP32下领先,但在FP16和INT8下仍有差距。不过考虑到A100是2020年发布的产品,这种对比需要放在时间维度上理解。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

万卡集群:工程难度的系统性挑战

摩尔线程已建成万卡智算集群,下一步是十万卡集群。集群规模的扩张不是简单的算力叠加,而是系统工程层面的质变。张建中列举了五大工程挑战:超大集群供电与液冷散热、超大规模互联组网与通信、集群训练有效算力、训练稳定性与可用性、模型训练精度与效果测评。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

当集群规模达到万卡级别,供电和散热成为首要难题。单卡功耗400-450W,万卡集群的满载功耗超过4500千瓦,这需要专用的电力基础设施和高效的液冷系统。互联通信同样关键,卡间通信带宽和延迟直接影响分布式训练效率。 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术 「技术解码」从千卡到百万卡:摩尔线程的算力疆域扩张路线图 IT技术

未来战场:大模型训练的精度演进

大模型训练正在经历精度迁移。传统FP16训练正在向FP8、FP4演进,这种趋势的驱动力是成本和效率。更低精度意味着更高的计算吞吐和更低的内存占用,虽然可能带来精度损失,但通过混合精度训练等技术可以在保持模型质量的同时获得性能收益。

摩尔线程的产品路线图与此吻合:S5000支持FP8,华山支持FP4。这条技术路径的终点,是实现高效并行训练与低精度计算的有机结合,为千亿乃至万亿参数模型提供可扩展的训练基础设施。