8月26日,芯片指數(shù)(884160.WI)探底回升,午盤漲0.02%,近一個月漲19.5%;AI算力指數(shù)(8841678.WI)熱度延續(xù),午盤漲1.45%,近一個月漲22.47%。
消息面上,DeepSeek上周發(fā)布DeepSeek-V3.1,稱此次升級是邁向Agent(智能體)時代的第一步。DeepSeek稱,DeepSeek-V3.1使用了UE8M0 FP8 Scale參數(shù)精度,并表示UE8M0 FP8是針對即將發(fā)布的下一代國產(chǎn)芯片而設計。
芯片指數(shù)與AI算力指數(shù)近期持續(xù)走高背后,是AI浪潮與大模型算力需求劇增下,國產(chǎn)替代加速與供應鏈多元化路徑日漸成熟的趨勢。而DeepSeek擲出FP8這顆 “魔力骰子”,不僅精準切中行業(yè)對高效低功耗計算的迫切需求,更直接引發(fā)了一場圍繞低精度計算的現(xiàn)象級熱潮,為國產(chǎn)算力賽道再添一把火。
爆火前的三年成長期
雖然DeepSeek V3.1預告將匹配UE8M0 FP8 Scale參數(shù)精度,并引爆F(xiàn)P8及低精度方面熱度,但在行業(yè)內(nèi),該參數(shù)已非新事物。
FP8是一種8位浮點數(shù)格式,遵循IEEE 754規(guī)范。在計算機里,數(shù)據(jù)要存儲和計算,就像物品要放在盒子里,浮點數(shù)就是一種把小數(shù)用特定規(guī)則裝起來的“袋子”?!靶∥募盕P8之前,行業(yè)更多使用“大文件袋”FP32、“中文件袋”FP16等。
早在2022年9月,英偉達即在GTC大會上首次將FP8寫入產(chǎn)品路線圖,預告Hopper架構(gòu)的H100 GPU將原生支持FP8。但由于低精度涉及芯片、軟件、模型、標準等全產(chǎn)業(yè)鏈環(huán)節(jié),包括CUDA、PyTorch、TensorFlow等軟件棧平臺在2022年時也都沒有原生FP8算子。
并且,2022年行業(yè)認知還聚焦在“大模型需要大力出奇跡”“精度不能降低否則模型會崩”的技術(shù)路線,直到2023年GPT-4與Llama-2驗證了FP16夠用,F(xiàn)P8才逐漸被行業(yè)嘗試接納并測試。
2023年,由Meta、微軟、谷歌、阿里等頭部廠商共同成立的開放計算項目OCP發(fā)布《MX規(guī)范》第一版本,通過“塊縮放”將FP8包裝為可以大規(guī)模落地的MXFP8,其中UE8M0MX規(guī)范中為AI運算設計的8位指數(shù)、無尾數(shù)編碼方式,作低精度數(shù)據(jù)塊級縮放因子,可避免訓練中數(shù)值溢出/下溢,保障穩(wěn)定性。
同時框架廠商也開始向內(nèi)填充代碼,AI投資主線從“有沒有GPU”的“囤卡”策略,逐漸傾斜到“省不省算力”的效率路線。2024年,行業(yè)開始出現(xiàn)萬卡集群、推理爆發(fā),成本、功耗、顯存逐漸成為更核心的問題,該行業(yè)節(jié)點,具備省顯存、省電費、速度快等價值的FP8逐漸被更多廠商關(guān)注并布局。
2024年12月,DeepSeek通過V3模型跑通MXFP8,意味著在復雜的AI訓練任務中,MXFP8可以高效發(fā)揮作用,吸引眾多AI開發(fā)者、研究機構(gòu)與相關(guān)企業(yè)的關(guān)注。
從MXFP8到UE8M0 FP8,行業(yè)內(nèi)編碼方式、動態(tài)范圍、硬件處理、應用場景和生態(tài)發(fā)展均發(fā)生了升級迭代,更加聚焦大語言模型訓練等場景,在處理Transformer架構(gòu)中長尾分布的權(quán)重時表現(xiàn)良好。但趨勢上,兩者均歸屬于FP8類別,體現(xiàn)了低精度計算在提升效率上的優(yōu)勢,推動產(chǎn)業(yè)鏈廠商在低精度領(lǐng)域布局。
低精度量化所帶來的收益
宏微觀因素雙輪驅(qū)動
近期,借DeepSeek“東風”,二級市場多家芯片公司與券商機構(gòu)密集披露FP8布局與解讀,背后既有技術(shù)因素影響,更是國產(chǎn)AI芯片產(chǎn)業(yè)爭奪產(chǎn)業(yè)主導權(quán)的趨勢驅(qū)動。
據(jù)財通證券研報,2025年第二季度國產(chǎn)芯片市占率提升至38.7%。
此前,工信部印發(fā)《算力互聯(lián)互通行動計劃》,提出到2026年,建立完備的算力互聯(lián)互通標準、標識和規(guī)則體系;到2028年,基本實現(xiàn)全國公共算力標準化互聯(lián),形成具備智能感知、實時發(fā)現(xiàn)、隨需獲取能力的算力互聯(lián)網(wǎng)。
行業(yè)側(cè),據(jù)壁仞研究院研究人員觀察,自OpenAI開源首個原生態(tài)支持FP4格式的GPT-OSS系列大模型,AI領(lǐng)域已進入低精度計算時代。主要是因為AI潮流下,大模型需要越來越多的硬件,包括GPGPU(通用并行圖形處理器)芯片,來支撐訓練和推理的計算。而模型低精度量化能夠同時有效應對計算量大、儲存不足和數(shù)據(jù)傳輸慢這三個問題。
愛芯元智相關(guān)負責人對第一財經(jīng)記者表示,F(xiàn)P8的混合精度訓練框架(如DeepSeek的分塊量化與高精度累加技術(shù))將推動算力廠商調(diào)整技術(shù)路線。多精度混合架構(gòu)可同時運行FP32、FP16與FP8任務,訓練效率較傳統(tǒng)方案顯著提升,這種技術(shù)迭代已從訓練端向推理端滲透。
曦望聯(lián)席CEO王湛對記者表示,大模型推理對低精度數(shù)字的計算量需求極大,聚焦推理場景的芯片需重點強化低精度計算能力,同時可適當舍棄部分高精度計算能力——因高精度計算在推理場景中使用頻率低,且會增加芯片成本。
對于FP8及低精度趨勢將對算力行業(yè)產(chǎn)生的影響,王湛表示,低精度浮點技術(shù)是當前AI領(lǐng)域的一個重要趨勢,尤其是在模型推理方面,它將緩解硬件需求壓力與HBM(帶寬內(nèi)存)瓶頸問題。前者主要體現(xiàn)在能用更少的算力來完成運算、降低對內(nèi)存容量和帶寬的要求,并減少芯片間的互聯(lián)需求,有效降低芯片功耗;后者主要體現(xiàn)在高HBM因其高帶寬特性,是目前大模型推理的關(guān)鍵技術(shù)。DeepSeek對FP8技術(shù)的推動,通過采用FP8等低精度技術(shù),國產(chǎn)廠商可以選擇使用其他技術(shù)路線來彌補HBM技術(shù)的短板,實現(xiàn)同樣的功能。
中國銀河證券對2020-2027年中國智能算力規(guī)模預測
精度替換部分進行中
雖然低精度將會是業(yè)界普遍追求的方向,但這一趨勢并非沒有邊界。
王湛表示,低精度并非可以無限追求。當精度過低(如低于FP4),數(shù)據(jù)可能會因為失真而無法承載大模型所需的信息。除非在算法或框架層面有重大變革,否則FP4可能已是低精度的技術(shù)極限。另在應用場景中,低精度數(shù)據(jù)主要應用于模型推理,但在大模型的訓練或微調(diào)過程中,為了確保精度,通常仍需要更高精度的數(shù)制,如FP16和FP32。
愛芯元智相關(guān)負責人也認為,F(xiàn)P8的落地需芯片、框架、算子全鏈路適配。如DeepSeek在訓練中采用DualPipe并行算法(DeepSeek團隊提出的創(chuàng)新并行計算算法),通過計算-通信重疊將跨節(jié)點MoE訓練的通信開銷降至接近零,這要求InfiniBand(無限帶寬,用于高性能計算的計算機網(wǎng)絡通信標準)網(wǎng)絡支持FP8數(shù)據(jù)格式的高效傳輸。國產(chǎn)算力廠商正通過定制化方案突破生態(tài)壁壘。同時,F(xiàn)P8在矩陣乘法等操作中表現(xiàn)優(yōu)異,但在累加或特定函數(shù)計算中仍需高精度支持,包括愛芯元智在內(nèi)的國產(chǎn)廠商正嘗試通過定制化方案突破生態(tài)壁壘。
摩爾線程副總裁王華也在此前的分享中強調(diào),精度替換只能部分進行,無法完全替代,精度敏感的環(huán)節(jié)仍需保留高精度計算。在精度策略的設計上,王華觀察到當前行業(yè)趨勢更傾向于優(yōu)先擴展模型參數(shù)規(guī)模,這是因為模型訓練中實際使用的精度范圍僅占理論值域的一部分,造成“精度空間浪費”,而增大參數(shù)規(guī)模能有效提升模型效果。此前業(yè)界對FP8的應用尚處探索階段,而DeepSeek已將其成功應用于模型訓練,預計未來會有更多模型采用FP8精度。
壁仞研究院預測,隨著低精度訓練方法的成熟和更多芯片在硬件上對低比特格式的支持,大模型的訓練時間將大幅縮短,這將催生更大、能力更強的模型,支持更長token序列并提供更快的響應。此外,低精度計算及其他性能優(yōu)化方法,不僅能顯著提升大語言模型等文本生成任務的效率,還能大幅改善多模態(tài)領(lǐng)域,如目前響應速度極慢的AI視頻生成、世界模型等場景的生成效率。
財通證券引用IDC數(shù)據(jù)分析稱,受宏觀因素影響,中國AI加速卡國產(chǎn)份額已由2023年的不足15%提升至2025年上半年的40%以上,預計年底將過半。國產(chǎn)算力產(chǎn)業(yè)鏈已完成“融資—研發(fā)—場景落地”的正向循環(huán),正穩(wěn)步走出一條獨立于海外生態(tài)的可持續(xù)路徑。