4月5日,Meta公司發(fā)布了大型語言模型Llama的最新版本Llama 4 Scout與Llama 4 Maverick,兩者均以開源形式發(fā)布。此外,Meta還預(yù)告了Llama 4 Behemoth,稱其為“全球最聰明的語言模型之一,將作為未來模型訓(xùn)練的教師模型”。
沒想到,隨后就被曝出模型訓(xùn)練測試集作弊,內(nèi)部員工直接辭職,引發(fā)爭議。爭議的導(dǎo)火索源于海外留學(xué)求職交流論壇“一畝三分地”的一篇帖子,發(fā)帖人自稱是參與Llama 4訓(xùn)練的內(nèi)部員工,并表示已因此辭職。該員工透露,盡管團(tuán)隊反復(fù)努力訓(xùn)練,Llama 4的內(nèi)部模型性能始終無法達(dá)到開源SOTA(State-of-the-Art,頂尖水平)基準(zhǔn),差距明顯。
為達(dá)成目標(biāo),公司領(lǐng)導(dǎo)層提出在訓(xùn)練后期將各種基準(zhǔn)測試的“測試集”數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)中,以此在各項指標(biāo)上達(dá)成目標(biāo),交出一份“好看”的成績單。這位內(nèi)部員工表示,自己無法接受這種做法,甚至辭職信中明確要求不要在Llama 4技術(shù)報告中掛名。另一方面,高層給全員下了「死令」——4月底是Llama 4交付最后期限。在一系列高壓之下,已有高管提出了辭職。
據(jù)悉,Meta在其公告中明確提到,參與LM Arena測試的Maverick是一個「實驗性聊天版本」。而根據(jù)官方Llama網(wǎng)站上公布的信息,Meta在LM Arena的測試中所使用的實際上是「針對對話性優(yōu)化的Llama 4 Maverick」。這表明,該版本經(jīng)過了專門的優(yōu)化調(diào)整,以適應(yīng)LM Arena的測試環(huán)境和評分標(biāo)準(zhǔn)。
針對輿論,4月8日凌晨1點半,Meta生成式AI領(lǐng)導(dǎo)者Ahmad Al-Dahle在社交平臺發(fā)布了一篇長文,對前天剛開源的Llama 4質(zhì)疑進(jìn)行了官方回應(yīng)。Ahmad表示,Llama 4一開發(fā)完就發(fā)布了,所以,不同服務(wù)中模型質(zhì)量難免會有一些差異。Meta很快會修復(fù)這些漏洞提升性能。同時否認(rèn)在測試集上進(jìn)行了預(yù)訓(xùn)練。
{{item.content}}