股票投资

华为发布AI推理“黑科技” 助力措置AI推理效果与用户体验勤勉

发布日期：2025-08-15 08:50 点击次数：120

（原标题：华为发布AI推理“黑科技” 助力措置AI推理效果与用户体验勤勉）

8月12日下昼，华为负责发布AI推理“黑科技”UCM（推理牵记数据管束器），助力措置AI推理效果与用户体验的勤勉。

着手：中国基金报记者拍摄

AI推理是AI产业鄙人一阶段的发展重点。AI产业已从“追求模子智商极限”转向“追求推理体验最优化”，推理体验径直关联用户逍遥度、营业可行性等中枢需求，成为意象AI模子价值的黄金标尺。

据悉，华为筹备在9月开源UCM。届时，华为将在魔擎社区首发，后续逐渐孝顺给业界主流推理引擎社区，并分享给通盘Share Everything（分享架构）的存储厂商和生态伙伴。

UCM将进步推理系统效果和性能

UCM是一款以KV Cache（键值缓存）为中心的推理加快套件，会通多类型缓存加快算法器具，不错分级管束推理历程中产生的KV Cache牵记数据，扩大推理高下文窗口，以达成高空洞、低时延的推理体验，从而裁汰每个Token（词元）的推理本钱。

着手：中国基金报记者拍摄

KV Cache是一种用于优化诡计效果、减少叠加运算的关节本领，然而需要占用GPU（图形处理器）的显存存储历史KV（键值）向量，生成的文本越长，缓存的数据量越大。

跟着AI产业的发展迈入代理式东说念主工智能时期，模子边界化膨胀、长序列需求激增，以及推理任务并发量增长，导致AI推理的KV Cache容量增长，超出了显存的承载智商。

当今，海外最初芯片厂商通过从硬件迭代到软件优化，再到生态绑定，构建起AI推理时期的“铁三角”，短期内难以被代替。中国企业在单点硬件本领上有所毒害，但国产软件及生态适配仍有较大差距。

跟着信息本领应用改造产业的国产化更正提速，各行业逐渐意志到需要加快构开国产推理生态。UCM的中枢价值在于提供更快的推理反应、更长的推理序列等。

以提供更长的推理序列为例，配资者UCM通过动态KV逐层卸载、位置编码扩展等组合本领，将超长序列的Cache（缓存）分层卸载至外置专科存储，愚弄算法毒害模子和资源收尾，达成10倍级推理高下文窗口扩展。

UCM提供更低推理本钱

华为联手中国银联落地三大场景

据悉，UCM可把柄牵记热度在HBM、DRAM、SSD等存储介质中达成按需流动，同期会通多种疏淡忽闪力算法达成有算深度协同，使长序列场景下TPS（每秒处理token数）进步2至22倍，从而裁汰每个Token的推理本钱。

Token是AI模子中的基本数据单元。在测验历程中，AI大模子会学习标志Token之间的关系，从而奉行推理并生成准确、联系的输出。

数据显现，海外主流AI大模子的单用户输出速率已进入200 Tokens/s区间（时延5ms），而我国主流AI大模子的单用户输出速率多数小于60 Tokens/s（时延50至100ms）。

同期，跟着AI应用向各样骨子场景深度渗入，用户边界和苦求量急剧攀升，模子分析和生成的Token数呈现指数级增长态势。

浩繁的Token处理量意味着高尚的运营本钱，包括就业器珍重、电力虚耗捏续攀升等，而保险运动推理体验需要加大算力进入。

最大化的单Token智能承载力和优化本钱，成为繁密厂商的中枢诡计，而且Token经济时期莅临，测验、推理效果与体验量纲皆以Token为表征。

当今，华为AI推理加快决议贯串UCM与华为AI存储（OceanStor A系列）本领，与中国银联开展理智金融AI推理加快应用试点，三大落地业务场景分手是客户之声、营销筹谋、办公助手。

着手：中国基金报记者拍摄

以办公助手场景为例，通过应用华为AI推理加快决议，可援救用户输入逾越17万Tokens的超长序列推理，幸免超长序列模子推不动的问题。