华为发布AI推理“黑科技” 助力措置AI推理效果与用户体验勤勉
发布日期:2025-08-15 08:50 点击次数:120
(原标题:华为发布AI推理“黑科技” 助力措置AI推理效果与用户体验勤勉)
8月12日下昼,华为负责发布AI推理“黑科技”UCM(推理牵记数据管束器),助力措置AI推理效果与用户体验的勤勉。
着手:中国基金报记者拍摄
AI推理是AI产业鄙人一阶段的发展重点。AI产业已从“追求模子智商极限”转向“追求推理体验最优化”,推理体验径直关联用户逍遥度、营业可行性等中枢需求,成为意象AI模子价值的黄金标尺。
据悉,华为筹备在9月开源UCM。届时,华为将在魔擎社区首发,后续逐渐孝顺给业界主流推理引擎社区,并分享给通盘Share Everything(分享架构)的存储厂商和生态伙伴。
UCM将进步推理系统效果和性能
UCM是一款以KV Cache(键值缓存)为中心的推理加快套件,会通多类型缓存加快算法器具,不错分级管束推理历程中产生的KV Cache牵记数据,扩大推理高下文窗口,以达成高空洞、低时延的推理体验,从而裁汰每个Token(词元)的推理本钱。
着手:中国基金报记者拍摄
KV Cache是一种用于优化诡计效果、减少叠加运算的关节本领,然而需要占用GPU(图形处理器)的显存存储历史KV(键值)向量,生成的文本越长,缓存的数据量越大。
跟着AI产业的发展迈入代理式东说念主工智能时期,模子边界化膨胀、长序列需求激增,以及推理任务并发量增长,导致AI推理的KV Cache容量增长,超出了显存的承载智商。
当今,海外最初芯片厂商通过从硬件迭代到软件优化,再到生态绑定,构建起AI推理时期的“铁三角”,短期内难以被代替。中国企业在单点硬件本领上有所毒害,但国产软件及生态适配仍有较大差距。
跟着信息本领应用改造产业的国产化更正提速,各行业逐渐意志到需要加快构开国产推理生态。UCM的中枢价值在于提供更快的推理反应、更长的推理序列等。
以提供更长的推理序列为例,配资者UCM通过动态KV逐层卸载、位置编码扩展等组合本领,将超长序列的Cache(缓存)分层卸载至外置专科存储,愚弄算法毒害模子和资源收尾,达成10倍级推理高下文窗口扩展。
UCM提供更低推理本钱
华为联手中国银联落地三大场景
据悉,UCM可把柄牵记热度在HBM、DRAM、SSD等存储介质中达成按需流动,同期会通多种疏淡忽闪力算法达成有算深度协同,使长序列场景下TPS(每秒处理token数)进步2至22倍,从而裁汰每个Token的推理本钱。
Token是AI模子中的基本数据单元。在测验历程中,AI大模子会学习标志Token之间的关系,从而奉行推理并生成准确、联系的输出。
数据显现,海外主流AI大模子的单用户输出速率已进入200 Tokens/s区间(时延5ms),而我国主流AI大模子的单用户输出速率多数小于60 Tokens/s(时延50至100ms)。
同期,跟着AI应用向各样骨子场景深度渗入,用户边界和苦求量急剧攀升,模子分析和生成的Token数呈现指数级增长态势。
浩繁的Token处理量意味着高尚的运营本钱,包括就业器珍重、电力虚耗捏续攀升等,而保险运动推理体验需要加大算力进入。
最大化的单Token智能承载力和优化本钱,成为繁密厂商的中枢诡计,而且Token经济时期莅临,测验、推理效果与体验量纲皆以Token为表征。
当今,华为AI推理加快决议贯串UCM与华为AI存储(OceanStor A系列)本领,与中国银联开展理智金融AI推理加快应用试点,三大落地业务场景分手是客户之声、营销筹谋、办公助手。
着手:中国基金报记者拍摄
以办公助手场景为例,通过应用华为AI推理加快决议,可援救用户输入逾越17万Tokens的超长序列推理,幸免超长序列模子推不动的问题。