即将开源!华为发布AI推理黑科技,已在中国银联落地,华为ai技术
图片系AI生成
8月12日,华为发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。
UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。
AI推理:既不够快,也不够便宜
从行业视角观察,大模型的重心正在从训练转向推理。相关行业数据显示,当前推理算力需求已超过训练(58.5%)。GPT-5开放首周20 亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均token调用量已达16.4万亿,其中70%以上来自线上推理而非训练。
与此同时,大模型行业总会频繁出现一个现象,一旦出现了一种火热的新模型,该服务商的服务在一段时间会处于不太稳定的状态,这是因为大量用户访问需求之下,服务商需要通过计算、存储等优化措施,降低它的推理成本,并且降本的同时不能影响用户体验。
比如GPT-5发布就引起不少用户诟病,通过智能路由降低后台的算力成本,但是路由规划的效果出现了偏差,用户使用时频繁出现了“降智”效果,海内外用户吐槽非常多。
此外,由于在基础设施投资领域的差距,中国互联网在AI基础设施上的投资仅是美国的十分之一,叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素,中国AI推理发展难上加难。
中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延,每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。
国外主流大模型输出速度为200 tokens/s区间(时延5ms),而中国普遍小于60 tokens/s(时延50~100ms),最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token(如GPT-5、Claude 3.5),而国内头部(Kimi)仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。
行业通常用增加显存、内存的方式,提升AI推理的效率和性能,但是很多业界方案只关注基础设施层,即分层流动/开启管理,在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措,即缺少一套“推理框架、算力、存储三层协同”的方案。
以存代算,首token延迟降低90%
华为公司副总裁、数据存储产品线总裁周跃峰解释,以人的思考和大模型作对比,思考能力和记忆能力强相关,AI推理系统也一样的。整个AI推理系统当中,记忆功能往往有三部分,高性能的缓存(HBM),中间是内存(DRAM),这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。
UCM主要分为三部分:顶层和业界流行的推理框架对接,称为“连接器”,它会连接业界普遍流行的推理引擎框架,包括华为的MindiE、SGLang等等,与目前推理框架进行协同。
中间部分是加速程序,对于缓存记忆数据进行分级缓存管理的算法程序,运行在智算服务器当中。
另外一部分是和专业共享存储相结合的协同器,这个协同器(适配器)可以提升专业存储直通的效率和降低时延,可以让三级存储协同起来。
通俗解释,首先,华为通过UCM,将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息就不需要重新推理了,而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首token延迟降低90%、也节省了token by token的时间。
在过去,这些数据量通常较大、达到PB级,仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的,导致推理频繁出现“失忆”,需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定,靠堆卡的形式普通企业根本买不起,只有被迫接受“重复造轮子”的低效方式。
在此基础上,大模型能积累越来越多的历史对话、历史内容,就变相地增加了知识丰富度和广度,让需要全新计算的比例越来越少,简化计算复杂度,大模型也就越来越快、越来越聪明,如此解决“推得慢”的问题。
其次,当推理任务越来越长、越来越复杂,长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如,在分析一篇万字长文时,由于HBM容量有限,仅缓存到前2000字就装不下了,这样就容易出现推理失败、关键关联信息丢失的情况。
华为UCM通过一系列智能的算法,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,这就变相扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。
此外,华为采用了注意力稀疏技术及相关技术,可以识别这些大量KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量,如此解决“推不动”的问题。
在无需过多投资的情况下,UCM让长序列场景下TPS(每秒处理token数)提升2-22倍,相当于降低每Token推理成本,企业可以继续维持算力不变,仅花销小部分外置存储的投资、让缓存原地“升级”,从而改善推理效率、摊薄每token推理成本,解决“推得贵”的问题。
已在中国银联落地,9月将开源
金融行业是拥抱大模型较为快速的行业之一,对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖,金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全,因此AI推理的效果至关重要。
中国银联智能化创新中心副总经理杨燕明表示,通过分析来自客服、工单等数据发现以下痛点:金融产品、金融服务的种类多、场景复杂,在问题进行分类时相当困难;用户反馈内容繁杂的、冗长,导致难以分析原因。
中国银联尝试使用大模型技术解决这些问题,通常的解决方案是,将问题进行标签化,构建起一系列的问题标签,结合客户对话内容进行切片,喂给大语言模型进行处理,希望通过大语言模型帮助解决分类问题。
但随之发现了新的技术挑战,首先它是一个多次推理,推理时间非常长,一通电话或者一个服务,需要长达15分钟的分析时间;第二因为标签数量太多,分析准确性非常低,无法应用生产。
中国银联联合华为开展了推理性能的技术攻关,与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组,经过一系列尝试,提出了引入存储的KV Cache的加速方案,满足实际的业务需求。
采用KV Cache的方案,通使整个运算方式从推理运算,变为查找运算和推理运算相结合的方式,避免了大量重复推理,加速整个推理过程,实际效果标签分类的推理时间从原来的600秒,下降到10秒内,提升了50倍以上,标签分类准确率从不到10%上升到80%,整个效果达到生产预期。
华为也公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区。
华为相关专家表示,IT行业产品先行,标准随后。华为希望通过UCM这样一套开源的方式,能够让更多的厂商、业界存储伙伴加入,能够在推理加速推动标准落地,这是一个共创标准的过程,共同在开源社区孵化成熟,真正形成标准,才能真正解决今天看到的推理体验和推理成本的问题(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)
2、《浙江省加快推动“人工智能+医疗健康”高质量发展行动计划(2025—2027年)》印发
3、助高校毕业生走稳就业路(高校毕业生就业服务在行动),高校促就业