青碰视频在线观看|亚洲日韩在线91|久久黄色电影久久|久久久精品www|日韩国产免费基地|一区二区三区蜜桃|欧美专区在线视频|欧美亚洲精品熟女|99久久精品色欲|影音欧美中文一类

華為發(fā)布AI黑科技UCM,下個(gè)月開(kāi)源
來(lái)源:證券時(shí)報(bào)網(wǎng)作者:嚴(yán)翠2025-08-12 17:20

AI時(shí)代下,推理技術(shù)關(guān)系用戶(hù)與AI交互的體驗(yàn),包括回答問(wèn)題的時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等,在此背景下,華為最新推出AI推理黑科技UCM(推理記憶數(shù)據(jù)管理器),可大幅降低推理時(shí)延與成本,并大幅提升推理效率。

8月12日,華為舉行發(fā)布會(huì),正式發(fā)布AI推理創(chuàng)新技術(shù)UCM。

據(jù)了解,目前,國(guó)外主流模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國(guó)普遍小于60 Tokens/s(時(shí)延50—100ms),如何解決推理效率與用戶(hù)體驗(yàn)的難題迫在眉睫。

“高延遲、高成本是當(dāng)下AI推理領(lǐng)域發(fā)展的主要挑戰(zhàn)?!比A為數(shù)字金融軍團(tuán)CEO曹沖在會(huì)上表示。

華為方面介紹,作為一款以KVCache為中心的推理加速套件,UCM融合了多類(lèi)型緩存加速算法工具,分級(jí)管理推理過(guò)程中產(chǎn)生的KVCache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。

在具體技術(shù)實(shí)現(xiàn)路徑以及方面,華為相關(guān)負(fù)責(zé)人表示,UCM通過(guò)層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),可實(shí)現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對(duì)話、RAG知識(shí)檢索等場(chǎng)景中直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,使首Token時(shí)延最大降低90%。

另外,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中自動(dòng)分級(jí)緩存,同時(shí)融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理token數(shù))提升2—22倍,降低每Token推理成本。

此外,UCM通過(guò)動(dòng)態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù),將超長(zhǎng)序列Cache分層卸載至外置專(zhuān)業(yè)存儲(chǔ),利用算法突破模型和資源限制,實(shí)現(xiàn)10倍級(jí)推理上下文窗口擴(kuò)展。

華為相關(guān)負(fù)責(zé)人表示,當(dāng)前,中國(guó)互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的投資規(guī)模僅為美國(guó)的十分之一。與此同時(shí),國(guó)內(nèi)大模型的推理體驗(yàn)與海外相比仍存在差距——而推理體驗(yàn)的不足會(huì)直接導(dǎo)致用戶(hù)流失,進(jìn)而減緩企業(yè)的投資節(jié)奏;投資收縮又會(huì)使企業(yè)難以承擔(dān)高昂的推理成本,反過(guò)來(lái)進(jìn)一步限制推理體驗(yàn)的提升,形成惡性循環(huán)。UCM能夠在算力基礎(chǔ)設(shè)施投入保持不變的前提下,顯著優(yōu)化推理體驗(yàn),推動(dòng)AI推理進(jìn)入“體驗(yàn)提升—用戶(hù)增長(zhǎng)—投資加大—技術(shù)迭代”的商業(yè)正循環(huán)。

記者了解到,華為UCM已率先在中國(guó)銀聯(lián)“客戶(hù)之聲”“營(yíng)銷(xiāo)策劃”“辦公助手”三大業(yè)務(wù)場(chǎng)景中,開(kāi)展智慧金融AI推理加速應(yīng)用試點(diǎn),并已取得一定成果。

“AI時(shí)代后,Token經(jīng)濟(jì)時(shí)代到來(lái),目前推理過(guò)程仍存不少挑戰(zhàn),如何改進(jìn)推理系統(tǒng)的體驗(yàn)和效率是一個(gè)重要的話題。與中國(guó)銀聯(lián)合作落地UCM,對(duì)于AI推理的效率來(lái)說(shuō)是一個(gè)有效的突破。”華為副總裁、數(shù)據(jù)存儲(chǔ)總裁周躍峰表示。

隨著AI應(yīng)用向各類(lèi)實(shí)際場(chǎng)景深度滲透,用戶(hù)規(guī)模和請(qǐng)求量急劇攀升,模型分析和生成的Token數(shù)更呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì),最大化單Token智能承載力、優(yōu)化其成本成為廠商核心目標(biāo),Token經(jīng)濟(jì)時(shí)代來(lái)臨,訓(xùn)練、推理效率與體驗(yàn)量綱都以Token為表征。以火山引擎為例,2025年5月日均Token調(diào)用達(dá)16.4萬(wàn)億,較2024年同期激增137倍。巨大的Token處理量意味著高昂運(yùn)營(yíng)成本——服務(wù)器維護(hù)、電力消耗持續(xù)攀升;而保障流暢推理體驗(yàn)又需加大算力投入。如何在兩者間找到平衡,成為全行業(yè)亟待破解的難題。

在此背景下,華為計(jì)劃于2025年9月正式開(kāi)源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有ShareEverything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。

“為什么要開(kāi)源,是希望行業(yè)內(nèi)更多人(企業(yè))一起推動(dòng)推理框架、標(biāo)準(zhǔn)的形成,這是一個(gè)大家共創(chuàng)標(biāo)準(zhǔn)、共同推動(dòng)推理領(lǐng)域加速發(fā)展的過(guò)程?!比A為相關(guān)負(fù)責(zé)人表示。

責(zé)任編輯: 張一帆
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換