昨晚一个消息各大平台流转,美团发布并开源1.6万亿参数LongCat-2.0大模型,而其中最引人关注的,是它的完整训练和推理流程全部在国产算力集群上完成。大模型分为预训练、后训练、推理不同阶段,其中预训练的难度大于后训练和推理。此前,国产芯片多用于大模型推理,这次则实现预训练。

这使LongCat-2.0成为首个在国产算力集群上跑通的万亿参数模型。此前最早在国产算力集群上跑通的千亿级模型,是科大讯飞的讯飞星火 V3.5。

美团官方并未点名具体型号。数智前线获悉,LongCat-2.0在昇腾5万卡集群上完成训练和推理全流程。在6月5日,美团就携LongCat-2.0预览版,参加华为云首届INSPIRE创想者大会,主推Coding和智能体功能。

01 为什么不是DeepSeek,而是美团最先跑通?

数智前线获悉,LongCat团队对国产算力的探索始于2023年,是昇腾最大的互联网客户之一。

一个有趣的问题是,为什么最先跑通的不是DeepSeek,而是美团?这背后是一把手战略选择、企业定位、资源与商业等因素的综合结果。

据媒体报道,DeepSeek今年推出的V4 模型,训练仍在英伟达与CUDA 生态上完成,推理则适配了华为昇腾等国产算力平台。这或与DeepSeek的取舍有关,它要抢时间追前沿,也要考虑既有算力与软件栈积累,优先级是模型能力本身,护城河是训练效率。

在美团方面,美团与华为长期保持紧密合作,是最早支持鸿蒙的企业之一,王兴此前也公开表达过对华为自研芯片路线的支持。同时,作为场景驱动的互联网企业,出于供应链安全考量,美团在战略上选择用全国产算力跑通万亿模型训练。

数智前线获悉,从2023年起,美团团队逐步攻克算子适配、通信优化、分布式稳定性等基础难题。核心要解决的,是如何在一个算法生态不够丰富、显存更小、显存带宽更窄国产芯片平台上,把技术栈从零跑起来的系统工程问题。

以算子为例,训练侧美团自研了覆盖Embedding、FA、LSA、MoE等多个确定性算子,并在数值可靠性上重写一系列基础算子以提升精度,长上下文场景下还自研了确定性注意力算子与KL损失算子;推理侧的Super Kernel、Weight Prefetch 同样是算子层的适配。这些能力,在成熟的英伟达生态里通常可以直接拿到。

美团在LongCat-2.0的介绍中,把“预训练在5万余国产算力芯片上耗时月余完成,消费超过 35万亿tokens,全程无回滚、无不可恢复的loss突刺”放在开头,这也是强调其工程突破。

值得留意的是,其中一些技术是在同行既有实践上优化演进而来。以LongCat稀疏注意力(LSA)为例,报告写明它是“由DeepSeek稀疏注意力(DSA)演进而来”。

02 国产算力芯片走向训练

此前,国产化芯片多用于模型推理,而在更难的模型训练环节,也在逐步实现突破。

2023年,科大讯飞与华为开启大模型全栈国产化实战,双方成立了算力专项工作“联合特战队”,华为投入几百人团队、高峰时期曾有超过千名工程师在合肥讯飞总部联合攻关。科大讯飞基于华为昇腾构建了首个万卡国产算力平台“飞星一号”,讯飞星火大模型均是基于华为昇腾算力训练完成。

2024年10月,科大讯飞宣布启动“飞星二号”,总规模为三万卡级昇腾集群。今年6月,“飞星二号”前三期已全面投产商用,主攻MoE稀疏万亿级基座、超长上下文、智能体强化学习等技术。

美团在国产化算力上的探索也始于2023年。2026年6月正式发布基于国产算力的LongCat-2.0万亿参数模型。

阿里方面,平头哥于2020年立项真武系列PPU,对标英伟达GPGPU;2025年9月,央视新闻报道的三江源智算中心将阿里PPU万卡集群曝光;2026年5月,平头哥发布新一代训推一体PPU芯片真武M890。

百度方面,2025年4月,百度昆仑芯3.4万卡集群点亮,并基于昆仑芯完成对文心5.1等重要版本的训练。目前,百度昆仑芯的IPO正在同步推进“A+H”两地上市,进入关键阶段。

寒武纪方面,数智前线曾向某采购寒武纪芯片的互联网大厂求证,寒武纪芯片未参与大模型训练,承担模型推理工作。根据报道,寒武纪芯片上有部分行业模型完成训练。

由于具身智能相关模型参数较小、数据集比大语言模型也小得多,目前已成为国产芯片模型训练的新试验场。2026年1月,摩尔线程联合北京智源研究院,使用其MTT S5000GPU构建的千卡集群,完成具身大脑模型RoboBrain 2.5的全流程训练,参数量为80亿。

理想汽车等车企也在自研芯片,用于训练支撑其具身智能应用的VLA的具身模型。

从推理到训练,从万亿基座到具身小模型,国产算力正在多点跑通。不过,有智算中心人士告诉数智前线,期望更多国产芯片能跑通从模型训练到推理全流程,以将芯片能力更大限度盘活和应用,但这确实需要有一定实力的芯片公司与应用方的联合攻坚,将是一个逐步突破的过程。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8uP7HgVGPLy