首页资讯

剑指HBM,华为AI新技术UCM来了!,华为的ai技术

时间:2025-08-13 02:39 作者:二斗

剑指HBM,华为AI新技术UCM来了!,华为的ai技术

本文由半导体产业纵横(ID:ICVIEWS)综合

UCM不仅着眼当下解决当前推理加速问题,还面向未来设计。

今日,华为在“2025金融AI推理应用落地与发展论坛”上发布其AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。

华为公司副总裁、数据存储产品线总裁周跃峰表示,该技术以KV Cache为中心,融合了多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,旨在扩大推理上下文窗口,实现高吞吐、低时延的推理体验,同时降低每Token的推理成本。

据介绍,推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。当前,随着AI产业已从“追求模型能力的极限”转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等,成为衡量模型价值的黄金标尺。

但在 AI 行业化落地的过程中,推理环节主要面临:推不动、推得慢、推得贵三大挑战。比如,将一篇较长的文章放入推理系统时,系统可能看了前面忘了后面,看了后面又忘了前面,这是因为推理窗口相对较小,难以处理长文本。同时,由于基础设施投资的差距,目前中国互联网大模型的首 Token 时延普遍慢于美国互联网头部企业,而且在每秒或一定时间内,中国头部互联网提供的推理 Token 数也远少于美国头部互联网。因此,改进推理系统的效率和体验成了重要课题。

UCM 作为华为与银联联合创新推出的解决方案,相对于过去试图通过增加 HBM 和内存来提升 AI 推理效率和性能的方式,是一次有效的突破。就像人类的思考能力与记忆能力密切相关,既需要记得多,也需要记得快,AI 推理系统的记忆同样关键。

AI 推理系统的记忆主要分为三部分:高性能缓存 HBM、内存 DRAM,这两部分基本都在计算服务器中;还有一部分是过去未被充分利用的专业共享存储。UCM 推理记忆数据管理器通过一系列算法,将推理过程中不同延时要求的数据放在不同的记忆体中。实时记忆数据放在 HBM 中,短期记忆数据放在 DRAM 中,长期记忆数据与外部知识放在SSD中,以此极大提升整个系统的效率和 AI 推理性能。

作为软件系统,UCM 主要由三部分构成。顶层是与业界流行推理框架对接的连接器,能连接华为的 Mind IE等推理框架,实现良好协同。中间部分是运行在计算服务器中的加速程序,负责对缓存记忆数据进行分级缓存管理,是核心部分。最后一部分是与专业共享存储相结合的协同器,它能提升专业存储的直通效率并降低时延,让三级存储协同工作。

经大量测试和银联实际案例印证,该算法能使首 Token 时延最高降低 90%,系统吞吐率最大提升 22 倍,同时上下文推理窗口可扩展 10 倍及以上,极大提升了推理系统的效能。

华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything (共享架构)存储厂商和生态伙伴。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

Top

1、如何看待澳大利亚接连出现针对中国人的暴力袭击,且最后被抓的基本都是未成年少女?

2、燃油车的半壁江山,还能守多久?,燃油车再见

3、科技云报到:客户满意度才5%?AI行业到底有没有明白人

小编推荐

当前文章:http://www.share.tuanjian7.cn/TPQ/detail/dnmilr.html

相关阅读

网友评论

我要评论

发表
取消

二斗