近日,華為推出參數(shù)規(guī)模7180億的新模型——盤古Ultra MoE,這是一個(gè)全流程在昇騰AI計(jì)算平臺(tái)上訓(xùn)練的準(zhǔn)萬億MoE模型。華為同時(shí)發(fā)布盤古Ultra MoE模型架構(gòu)和訓(xùn)練方法的技術(shù)報(bào)告。在訓(xùn)練方法上,華為首次披露在昇騰CloudMatrix 384超節(jié)點(diǎn)上,打通大稀疏比MoE強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù),使RL后訓(xùn)練進(jìn)入超節(jié)點(diǎn)集群時(shí)代。 此外,近期發(fā)布的盤古Pro MoE大模型,在參數(shù)量為720億,激活160億參數(shù)量的情況下,大模型榜單SuperCLUE的2025年5月排行榜上,位居千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。
3月10日,字節(jié)豆包大模型團(tuán)隊(duì)官宣開源一項(xiàng)針對(duì)MoE架構(gòu)的關(guān)鍵優(yōu)化技術(shù),可將大模型訓(xùn)練效率提升1.7倍,成本節(jié)省40%。據(jù)了解,該技術(shù)已實(shí)際應(yīng)用于字節(jié)的萬卡集群訓(xùn)練,累計(jì)幫助節(jié)省了數(shù)百萬GPU小時(shí)訓(xùn)練算力。
11月27日,由傅盛創(chuàng)建的獵戶星空正式發(fā)布Orion-MoE 8×7B大模型。據(jù)介紹,這款大模型是獵戶星空自主研發(fā)的開源混合架構(gòu)專家大模型,擁有8×70億參數(shù),采用了生成式混合專家的設(shè)計(jì),涵蓋了中文、英語、日語、韓語等多種語言。
據(jù)昆侖萬維消息,6月3日,昆侖萬維宣布開源2千億稀疏大模型Skywork-MoE,性能強(qiáng)勁,同時(shí)推理成本更低。Skywork-MoE基于之前昆侖萬維開源的Skywork-13B模型中間checkpoint擴(kuò)展而來,是首個(gè)完整將MoE Upcycling技術(shù)應(yīng)用并落地的開源千億MoE大模型,也是首個(gè)支持用單臺(tái)4090服務(wù)器推理的開源千億MoE大模型。
昆侖萬維宣布天工大模型3.0將于4月17日正式發(fā)布。據(jù)介紹,天工3.0采用4千億級(jí)參數(shù)MoE混合專家模型,并將同步選擇開源。天工3.0是全球首個(gè)多模態(tài)“超級(jí)模型”(Super Model),集成了AI搜索、AI寫作、AI長(zhǎng)文本閱讀、AI對(duì)話、AI語音合成、AI漫畫創(chuàng)作、AI音樂生成等多項(xiàng)能力。其中,AI音樂生成大模型SkyMusic還將于4月2日面向社會(huì)開啟邀測(cè)。
2月6日,昆侖萬維正式發(fā)布新版MoE大語言模型“天工2.0”與新版“天工AI智能助手”App。據(jù)官方介紹,此次更新全面升級(jí)了AI搜索、對(duì)話、閱讀、創(chuàng)作的回答質(zhì)量與響應(yīng)速度,支持圖文對(duì)話、文生圖等多模態(tài)應(yīng)用,支持最高100K的超長(zhǎng)上下文窗口(超過15萬個(gè)漢字)。