8月10日消息,據(jù)報(bào)道,華為將于8月12日在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,發(fā)布AI推理領(lǐng)域的突破性技術(shù)成果。據(jù)悉,這項(xiàng)成果或能降低中國(guó)AI推理對(duì)HBM(高帶寬內(nèi)存)技術(shù)的依賴,提升國(guó)內(nèi)AI大模型推理性能,完善中國(guó)AI推理生態(tài)的關(guān)鍵部分。
據(jù)了解,華為在AI推理領(lǐng)域的技術(shù)突破已有先例。2025年3月,北京大學(xué)聯(lián)合華為發(fā)布了DeepSeek全棧開(kāi)源推理方案,該方案基于北大自研SCOW算力平臺(tái)系統(tǒng)和鶴思調(diào)度系統(tǒng),整合了DeepSeek、openEuler、MindSpore與vLLM/RAY等社區(qū)開(kāi)源組件,實(shí)現(xiàn)了華為昇騰上的DeepSeek高效推理。
在性能方面,華為昇騰已實(shí)現(xiàn)多項(xiàng)突破。例如CloudMatrix 384超節(jié)點(diǎn)部署DeepSeek V3/R1時(shí),在50ms時(shí)延約束下單卡Decode吞吐突破1920Tokens/s;Atlas 800I A2推理服務(wù)器在100ms時(shí)延約束下單卡吞吐達(dá)到808 Tokens/s。科大訊飛與華為的合作也取得了顯著成果,雙方率先實(shí)現(xiàn)了國(guó)產(chǎn)算力上MoE模型的大規(guī)??绻?jié)點(diǎn)專家并行集群推理,使推理吞吐提升3.2倍,端到端時(shí)延降低50%。
{{item.content}}