从DS这串“乱码”到寒武纪爆发,更大惊喜是……
DeepSeek V3.1提及的UE8M0 FP8引爆了舆论,但我们也要清醒看到,其意义并非在于技术上的原创性突破,而是标志着国产AI产业链协同迈入新阶段。它的核心意图在于串联起芯片厂商适配、大模型工具链优化,打破“单点创新”困局。尽管国产算力仍有短板,但上下游企业从协同设计到生态联盟的探索,正以“1+1>2”的合力,为中国AI全产业链突围筑牢根基。
引爆市场情绪的,是上周DeepSeek V3.1的发布——准确来说,甚至不是这款模型的能力本身,而是短短不到20个字的一则官方留言:“UE8M0 FP8是针对即将发布的下一代国产芯片设计。”
UE8M0 FP8,立即成了国产AI技术突破的最新代名词。
事实上,如果把DeepSeek、寒武纪、中芯国际们近期的一系列信息串联起来,我们在欣喜于其进步之余,也能够看到国产AI生态仍受到严重限制,距离世界先进水平仍有差距。
但更大的惊喜在于,中国产业链的协同程度正在迅速提升。
FP8是一种8位浮点数,其基本原理是用较少的字符来表示更复杂的数字,这对于使用二进制语言的计算机来说是非常重要的。
那么为了节省字符,人们发明了浮点数。
例如,上述的111000.11100011,可以写成1.1100011100011×2⁵。如果我们愿意损失一定的精度,规定小数点后只保留3位,就约等于1.110×2⁵。这样一来,只需要记录下小数点后的110和5次幂这两个信息,就能还原出原来的数字了,存储空间占用量大大减少。
FP8就是这样一种记录方式,规定用8位二进制数来记录上述信息。例如拿出4位数记录幂值,另外3位数来记录110,剩下1位数记录正负。这种格式叫做E4M3 FP8。
但是这里面仍然有个问题:当数字比较大时,幂值会变大,而4位二进制数最大仅相当于十进制的15,更大幂值就无法记录。E4M3 FP8最大就只能记录十进制-480到+480之间的数字。
想要表示更大数字,就要增加用于记录幂值的字符,减少记录前面数字的字符,但这会导致精确度继续变差。
而UE8M0 FP8,就意味着把全部8位数字都用来记录幂值,而完全舍弃小数点后的信息,以及正负值。
换句话说,UE8M0 FP8只能记录2,4,8,16……这样2的整数次幂,其它数字都只能近似成这些数字,极大地牺牲了精度,以换取存储范围。
理解了这一点,我们就可以来讨论DeepSeek为什么要使用UE8M0 FP8。
这些数字,就是人们常说的参数,而参数自然是范围越大、越精确越好。
想要范围和精度两者兼得,就需要用更多的二进制字符来记录。因此,过去很多大模型会使用FP16、FP32等格式,这意味着更大的存储量和算力消耗。
而DeepSeek V3和R1这样的模型,之所以能够降低算力成本,就是因为使用了FP8,以牺牲精度来换取速度。
事实上,DeepSeek并非所有数据都使用UE8M0格式。如前所述,UE8M0的极端取舍,导致精度极差,是难以满足大模型训练需求的。
DeepSeek所做的,是引入UE8M0作为“缩放因子”,使用了microscaling的方法。简单理解,其参数仍然以E4M3 FP8等格式存储,以保证精度,并通过与另一个UE8M0 FP8数字相乘的方式,实现类似FP32的效果,并节省75%的存储需求。
但是,我们也无需过度拔高DeepSeek V3.1的独创程度。
早在2023年,Meta、英特尔、谷歌等科技巨头推动的“开放计算项目(OCP)”就提出了MXFP8的microscaling数据格式标准,以UE8M0作为缩放因子,而英伟达显卡也早已支持UE8M0。国内的阿里、腾讯、百度等头部大厂,也都参与了这个项目。
2023年10月,OCP全球峰会在美国加州圣何塞举办
2023年,英伟达首席科学家比尔·戴利曾指出,驱动英伟达芯片性能大幅提升的秘密,已经不是芯片制程驱动的“摩尔定律”,而是数据格式等因素共同驱动的“黄氏定律”,即通过引入较低精度的数字表示法,来减少对存储空间和计算资源的消耗,从而可以加快计算速度和效率。英伟达H100等显卡,就已经开始支持FP8格式。如果把目光放到学术界,英伟达和加州理工的研究人员更是在2021年时就曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》,提出了类似的数据转换方法。
DeepSeek今年2月发布的高性能计算库DeepGEMM中,也使用了UE8M0缩放因子。DeepGEMM正是针对英伟达显卡所做的优化,而国产显卡当时却普遍并不支持这种格式。
以至于当DeepSeek V3和R1问世时,国产显卡需要借助软件优化将FP8格式转化成FP16,适配效果大打折扣。
因此,DeepSeek此次透露的信息,或许重点并不在前半部分的UE8M0,而是后半部分的“针对下一代国产芯片设计”。
近期,摩尔线程、芯原等国产芯片厂商也同步释放了适配UE8M0 FP8的消息。
摩尔线程对观察者网指出,其旗舰产品MTT S5000是国内首批原生支持FP8并已大规模量产的GPU。摩尔线程的MUSA架构原生支持硬件FP8张量加速计算,能够完美支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
摩尔线程在WAIC 2025上发布了MTT S5000
“补课”,或许才是对现阶段工作更合适的表述。
这或许也解释了为什么DeepSeek R2延宕许久尚未问世。
因此,DeepSeek V3.1真正的意义,应该不是对UE8M0 FP8这种数据格式本身的应用,而是类似于DeepGEMM这样针对国产芯片的工具链设计。
而且,DeepSeek特意提到是针对“下一代国产芯片”,这意味着国产大模型厂商与芯片厂商之间的协同配合达到了更高的层次,双方可以在硬件开发阶段就共同参与优化。
摩尔线程对观察者网表示,此举能够充分发挥出已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2。
生态协同新高度
事实上,谈到国产大模型与芯片的协同开发,DeepSeek也不是唯一的参与者。
一方面,头部大厂往往已经通过自建生态的方式,早早布局软硬件协同,如华为昇腾、阿里平头哥、百度昆仑芯等。
2025百度云智大会上,百度智能云正式发布百度百舸AI计算平台5.0全新版本。
而更多的大模型初创公司,则通过与芯片厂商联合的方式来提升适配效率。
今年7月,阶跃星辰联合近10家芯片及基础设施厂商发起“模芯生态创新联盟”,首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
阶跃星辰联合创始人、副总裁朱亦博对观察者网指出,一款芯片的开发周期需要两年以上,而如今模型迭代的速度只有半年到一年,如果让芯片厂商去适配模型,必然是低效的。如今,阶跃星辰希望在国产芯片的开发阶段,就主动去进行适配,是一种更高效的方式。
但我们也要清醒地看到,国产算力生态仍然处于一种“带着镣铐跳舞”的状态。
从中芯国际的财报可以看到,尽管国内旺盛的需求推动其产能利用率不断攀升,并且还有大规模扩产计划,但是其主要业务仍来自成熟制程。因此,其业绩并如台积电那样未充分受益于当下的算力热潮。
包括制程能力、HBM技术等限制,也让国产AI产业往往采用极限创新的方式,在硬件受限的情况下用更高的成本、更复杂的算法来压榨效率。
例如,华为不得不使用384个超多节点、昂贵的光通信等方式来对标英伟达的NVLink72。其AI推理加速“黑科技”UCM,也是在HBM受限的情况下,主要针对“节流”进行的创新;而原理类似的英伟达Dynamo,则更多聚焦于发挥高端算力集群的能力。
近期华为盘古大模型遭遇的争议和收缩,也显示出中国企业尚难以凭借单打独斗去全方位赢得全球AI竞争。以开放和协同的方式汇聚国内全部力量,才是更好的突围之道。
因此,近期国产AI产业一系列突破固然令人欣喜,但仍然要看到,其真正意义并非在于单点的进步,而是在于产业链上下游的信任和协作达到了一个新的高度,为未来中国全产业链的领先打下坚实基础。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
2、有家长建议禁止中小学生带电话手表进校,你是否支持?,小学生不可以带电话手表去学校吗