首页资讯

从DS这串“乱码”到寒武纪爆发,更大惊喜是……

时间:2025-08-31 01:03 作者:曼珠珊华

从DS这串“乱码”到寒武纪爆发,更大惊喜是……

DeepSeek V3.1提及的UE8M0 FP8引爆了舆论,但我们也要清醒看到,其意义并非在于技术上的原创性突破,而是标志着国产AI产业链协同迈入新阶段。它的核心意图在于串联起芯片厂商适配、大模型工具链优化,打破“单点创新”困局。尽管国产算力仍有短板,但上下游企业从协同设计到生态联盟的探索,正以“1+1>2”的合力,为中国AI全产业链突围筑牢根基。

最近一周,半导体成为A股表现最强的板块。上半年利润仅10亿的寒武纪,以超过6000亿的市值跃居科创板首位,滚动市盈率高达500余倍,股价也一度超过茅台成为A股“股王”。

引爆市场情绪的,是上周DeepSeek V3.1的发布——准确来说,甚至不是这款模型的能力本身,而是短短不到20个字的一则官方留言:“UE8M0 FP8是针对即将发布的下一代国产芯片设计。”

UE8M0 FP8,立即成了国产AI技术突破的最新代名词。

在一周高涨的情绪之后,今天的市场出现正常回落。而与之相伴的,是中芯国际冷暖参半的半年报——上半年营收增长22%,Q2产能利用率高达92.5%,中国区收入占比提升至84.2%;但单看二季度,净利润和毛利润都出现下滑。

事实上,如果把DeepSeek、寒武纪、中芯国际们近期的一系列信息串联起来,我们在欣喜于其进步之余,也能够看到国产AI生态仍受到严重限制,距离世界先进水平仍有差距。

但更大的惊喜在于,中国产业链的协同程度正在迅速提升。

DeepSeek到底干了什么

UE8M0 FP8,这串如同乱码一般的字符,究竟有什么魔力?

我们不妨先从FP8说起。

FP8是一种8位浮点数,其基本原理是用较少的字符来表示更复杂的数字,这对于使用二进制语言的计算机来说是非常重要的。

这是因为,二进制数字只有0和1两个字符,一个较短的十进制数字,写成二进制可能会变得很长。举个例子,一个随机的十进制数字56.89,如果直接转化计算机使用的二进制数字,是111000.11100011,字符非常多,也就意味着会占用更多存储空间。

那么为了节省字符,人们发明了浮点数。

具体来说,所谓浮点数,是指一种特殊的数字表示格式,其基本格式是把数字a写成m×b^e的形式。

例如,上述的111000.11100011,可以写成1.1100011100011×2⁵。如果我们愿意损失一定的精度,规定小数点后只保留3位,就约等于1.110×2⁵。这样一来,只需要记录下小数点后的110和5次幂这两个信息,就能还原出原来的数字了,存储空间占用量大大减少。

FP8就是这样一种记录方式,规定用8位二进制数来记录上述信息。例如拿出4位数记录幂值,另外3位数来记录110,剩下1位数记录正负。这种格式叫做E4M3 FP8。

但是这里面仍然有个问题:当数字比较大时,幂值会变大,而4位二进制数最大仅相当于十进制的15,更大幂值就无法记录。E4M3 FP8最大就只能记录十进制-480到+480之间的数字。

想要表示更大数字,就要增加用于记录幂值的字符,减少记录前面数字的字符,但这会导致精确度继续变差。

而UE8M0 FP8,就意味着把全部8位数字都用来记录幂值,而完全舍弃小数点后的信息,以及正负值。

换句话说,UE8M0 FP8只能记录2,4,8,16……这样2的整数次幂,其它数字都只能近似成这些数字,极大地牺牲了精度,以换取存储范围。

理解了这一点,我们就可以来讨论DeepSeek为什么要使用UE8M0 FP8。

大模型的基本原理,是把文字、图像等信息,全部用数字来表示,并预测哪些数字的相关性更高。

这些数字,就是人们常说的参数,而参数自然是范围越大、越精确越好。

想要范围和精度两者兼得,就需要用更多的二进制字符来记录。因此,过去很多大模型会使用FP16、FP32等格式,这意味着更大的存储量和算力消耗。

而DeepSeek V3和R1这样的模型,之所以能够降低算力成本,就是因为使用了FP8,以牺牲精度来换取速度。

但是,这种牺牲真的不可避免吗?这就要说到UE8M0了。

事实上,DeepSeek并非所有数据都使用UE8M0格式。如前所述,UE8M0的极端取舍,导致精度极差,是难以满足大模型训练需求的。

DeepSeek所做的,是引入UE8M0作为“缩放因子”,使用了microscaling的方法。简单理解,其参数仍然以E4M3 FP8等格式存储,以保证精度,并通过与另一个UE8M0 FP8数字相乘的方式,实现类似FP32的效果,并节省75%的存储需求。

这种做法尽管增加了算法的复杂程度,但是仅仅在必要时才去做计算,仍然能够大大节省算力和通信带宽需求。

这对于算力受到严重限制的国内大模型行业来说,自然是极为契合的思路。

国产芯片“补课”

但是,我们也无需过度拔高DeepSeek V3.1的独创程度。

早在2023年,Meta、英特尔、谷歌等科技巨头推动的“开放计算项目(OCP)”就提出了MXFP8的microscaling数据格式标准,以UE8M0作为缩放因子,而英伟达显卡也早已支持UE8M0。国内的阿里、腾讯、百度等头部大厂,也都参与了这个项目。

2023年10月,OCP全球峰会在美国加州圣何塞举办

2023年,英伟达首席科学家比尔·戴利曾指出,驱动英伟达芯片性能大幅提升的秘密,已经不是芯片制程驱动的“摩尔定律”,而是数据格式等因素共同驱动的“黄氏定律”,即通过引入较低精度的数字表示法,来减少对存储空间和计算资源的消耗,从而可以加快计算速度和效率。英伟达H100等显卡,就已经开始支持FP8格式。

如果把目光放到学术界,英伟达和加州理工的研究人员更是在2021年时就曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》,提出了类似的数据转换方法。

DeepSeek今年2月发布的高性能计算库DeepGEMM中,也使用了UE8M0缩放因子。DeepGEMM正是针对英伟达显卡所做的优化,而国产显卡当时却普遍并不支持这种格式。

以至于当DeepSeek V3和R1问世时,国产显卡需要借助软件优化将FP8格式转化成FP16,适配效果大打折扣。

因此,DeepSeek此次透露的信息,或许重点并不在前半部分的UE8M0,而是后半部分的“针对下一代国产芯片设计”。

近期,摩尔线程、芯原等国产芯片厂商也同步释放了适配UE8M0 FP8的消息。

摩尔线程对观察者网指出,其旗舰产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。摩尔线程的MUSA架构原生支持硬件FP8张量加速计算,能够完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。

摩尔线程在WAIC 2025上发布了MTT S5000

但需要注意的是,尽管国产芯片逐步开始支持FP8格式,由于不同品牌显卡在底层硬件架构上的差异,原本针对英伟达显卡设计的算法也并非可以直接移植到国产芯片上。因此,大模型针对国产芯片的适配调整仍是一项重要工作。

“补课”,或许才是对现阶段工作更合适的表述。

这或许也解释了为什么DeepSeek R2延宕许久尚未问世。

因此,DeepSeek V3.1真正的意义,应该不是对UE8M0 FP8这种数据格式本身的应用,而是类似于DeepGEMM这样针对国产芯片的工具链设计。

而且,DeepSeek特意提到是针对“下一代国产芯片”,这意味着国产大模型厂商与芯片厂商之间的协同配合达到了更高的层次,双方可以在硬件开发阶段就共同参与优化。

摩尔线程对观察者网表示,此举能够充分发挥出已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2。

生态协同新高度

事实上,谈到国产大模型与芯片的协同开发,DeepSeek也不是唯一的参与者。

一方面,头部大厂往往已经通过自建生态的方式,早早布局软硬件协同,如华为昇腾、阿里平头哥、百度昆仑芯等。

本周,百度发布了百舸AI计算平台5.0,基于昆仑芯实现超节点,并针对DeepSeek引领的强化学习风潮,推出强化学习框架,极致压榨算力资源。

2025百度云智大会上,百度智能云正式发布百度百舸AI计算平台5.0全新版本。

而更多的大模型初创公司,则通过与芯片厂商联合的方式来提升适配效率。

今年7月,阶跃星辰联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”,首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。

阶跃星辰联合创始人、副总裁朱亦博对观察者网指出,一款芯片的开发周期需要两年以上,而如今模型迭代的速度只有半年到一年,如果让芯片厂商去适配模型,必然是低效的。如今,阶跃星辰希望在国产芯片的开发阶段,就主动去进行适配,是一种更高效的方式。

但我们也要清醒地看到,国产算力生态仍然处于一种“带着镣铐跳舞”的状态。

从中芯国际的财报可以看到,尽管国内旺盛的需求推动其产能利用率不断攀升,并且还有大规模扩产计划,但是其主要业务仍来自成熟制程。因此,其业绩并如台积电那样未充分受益于当下的算力热潮。

包括制程能力、HBM技术等限制,也让国产AI产业往往采用极限创新的方式,在硬件受限的情况下用更高的成本、更复杂的算法来压榨效率。

例如,华为不得不使用384个超多节点、昂贵的光通信等方式来对标英伟达的NVLink72。其AI推理加速“黑科技”UCM,也是在HBM受限的情况下,主要针对“节流”进行的创新;而原理类似的英伟达Dynamo,则更多聚焦于发挥高端算力集群的能力。

近期华为盘古大模型遭遇的争议和收缩,也显示出中国企业尚难以凭借单打独斗去全方位赢得全球AI竞争。以开放和协同的方式汇聚国内全部力量,才是更好的突围之道。

因此,近期国产AI产业一系列突破固然令人欣喜,但仍然要看到,其真正意义并非在于单点的进步,而是在于产业链上下游的信任和协作达到了一个新的高度,为未来中国全产业链的领先打下坚实基础。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

Top

1、茶咖日报|奈雪的茶上半年收入下滑超14%,关店160家仍难扭亏

2、贾樟柯的电影关注底层民众,甚至用了很多素人演员,他的片不但没人看,还骂声一片

3、十年磨一剑!俄万吨核巡洋舰改造完毕,能否应对现代海战?,俄海军核潜艇

小编推荐

当前文章:http://www.share.tuanjian7.cn/MHC/detail/lkqhgh.html

相关阅读

网友评论

我要评论

发表

取消

曼珠珊华