新智元报道
编辑:编辑部 YNH
【新智元导读】近日 ,关于Meta Llama 4的「训练作弊」爆料搞得沸沸扬扬。Meta迅速反击,Licheng Yu、Di Jin及GenAI负责人Ahmad Al-Dahle接连辟谣,首席AI科学家Yann LeCun也亲自下场力挺。与此同时,Llama 4的实际表现却频频被吐槽。
Llama 4大瓜,又有了新的反转。
昨日,自称是Meta内部员工的一则Llama 4训练作弊爆料,彻底掀翻了全网。
紧接着,Meta研究科学家主管Licheng Yu实名辟谣,团队根本没有针对测试集过拟合训练。
此前,他曾参与了Llama 3系列的研发,并这次负责Llama4 17B模型。
另一位Meta高级AI研究科学家Di Jin(此次负责Llama 4 288B)反怼道,「我参与了微调和强化学习的datamix,也没有这种情况,楼主是否实名证实」?
而且,他还抓住了所谓爆料者的一大破绽——最近离职高级VP,并非是GenAI团队的。但凡是内部的员工,不可能不了解这一点。
与此同时,领导Llama团队的Meta GenAI副总裁兼负责人Ahmad Al-Dahle在X上发帖进行了澄清。
Ahmad表示,不同平台间之所以会存在质量差异,是因为模型在完成开发后Meta便立即进行了开源。预计还需数日,各家才能完成优化适配。
至于那些「使用测试集训练」的言论,可以说是毫无依据,因为这完全违背了Meta原则。
Ahmad坚信Llama 4模型标志着重大的技术进步,并期待与开发者社区携手挖掘其潜能。
作为Meta首席AI科学家的Yann LeCun,也在第一时间转发了Ahmad的帖子表示力挺。
话虽如此,但并不能「洗白」Meta在背后偷偷动了手脚——刷榜LMSYS的Llama 4是一款「提供版」模型。
竞技场开撕Meta,2000+对话公开真相
Llama 4开源首日,Maverick模型在Chatbot Arena上拿下仅次于Gemini 2.5的高分。
然而,开发者下载后发现,Meta公开的与HF公开下载的模型大相径庭,一时间大模型排行榜被全网骂惨。
今天,lmarena.ai团队彻底坐不住了,直接下场开怼。
他们发文表示,为了确保完全透明,我们公开了2000+组模型对战数据,包括用户提示词、模型回复、用户偏好供超看。
更劲爆的是,团队直指Meta在提交模型时,并非用的是原版,而是Llama-4-Maverick-03-26-Experimental。
这是一个经过DPO优化的定制模型,然而Meta在提交时并未明确说明这一点。
为了平息争议,团队火速给出解决方案,公开对战数据同时,并尽快上线Llama 4 Maverick公开版,并随后更新榜单结果。
Llama 4弱爆?吐槽一大片,但也有力挺
虽然整件事只是一个抓马,但Llama 4实力拉跨是真的。
在aider多语言编程基准测试中,Llama 4 Maverick仅拿下了16%成绩,远不及Qwen2.5-Coder、DeepSeek V3开源模型。
更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。
网友Flavio Adamo使用相同的提示词,分别让Llama 4 Maveric和GPT-4o制作一个旋转多边形的动画。
可以看出,Llama 4 Maveric生成的多边形并不规则而且没有开口。小球也不符合物理规律,直接穿过多边形掉下去了。
相比之下GPT-4o制作的动画虽然也不完美,但至少要好得多。
另外,Llama 4 Scout最大优势便是支持10000 token上下文,甚至当时有网友直呼「RAG已死」。
可事实上,在最新上下文基准测试中,Llama 4的排名几乎可以算上倒数的了。
报告中指出,Llama 4的表现令人失望。Maverick未能改进本就低于平均水平的Llama 3.3 70b,而Scout模型更是糟糕透顶。
谷歌的博士研究员Kaixuan Huang表示Llama 4的数学能力弱爆了。
他们在MATH-Perturb基准测试上测试了Llama4-Scout,其得分排名甚至不及参数更小、发布更早的DeepSeek-R1-Distill-Qwen-14B。
实在难以想象这是一个新发布的模型。
地址:https://math-perturb.github.io/
不过,斯坦福计算机助理教授Percy Liang刚刚发布一个新基准,Llama 4 Maverick竟拿下了最高分。
针对这次基准乌龙事件,他本人也做出了回应,每个人不要过度解读排行榜。如果对一个模型进行多样测试,一切就清晰了。
DS太强,小扎按下恐慌按钮
Llama 4效果如此不尽人意,难道Meta不能等一切准备就绪再发吗?
时间来不及了!
有传言称,4月第二周,Qwen-3即将出世,而且说不定哪天DeepSeek R2突然发布了。
届时,Llama 4可能更就拿不出手了,毕竟几个月前,Meta前员工爆料称,内部高层恐慌一片。
来自艾伦研究员Nathan Lambert发长文称,Llama 4可能是今年最奇怪的一次模型发布。
曾经,Llama系列每一次迭代,都被视为AI领域年度大事件,如今Llama 4却让人感到迷失。
Llama 4包括三款模型,最大亮点采用了MoE架构,训练计算量比Llama 3更少。
在LMArena排行榜上,Llama 4 Maverick取得了1417 ELO高分,表现抢眼。
但诡异的发布时间,「轻浮」的对话风格,以及评估数据的缺乏,都让Llama 4的亮相尽显慌乱。
业界一直发出质疑——Llama 4的设计更像是古早的模型,复杂MoE架构、超大参数规模、高内存需求,与开发者需求渐行渐远。
相较之下,Qwen 2.5提供了多样化模型选择,更贴近开源标杆的设计。
从目前来看,Meta团队似乎更专注于用AI赋能自家平台,而非真正支撑开源的生态。
参考资料:
https://x.com/ylecun/status/1909313264460378114
https://x.com/emollick/status/1909306675174977637
王者同人18❌动漫免费网站 | 0天前 |
火影忍者天选之子 |
Free HD XXXX japan Movie | 3天前 |
虐乳➕灌➕电击➕虐菊小说 |
男孩子恋童小男孩 | 2天前 |
丝袜脚…好爽⋯好紧⋯再深一点网站 |
英雄联盟之乱婬h侵犯 | 0天前 |
成人福利网站导航㊙️免费看 |
火影涩涩同人3D❌18禁 | 4天前 |
tube 888XXXX |
芙宁娜被❌到爽🔞 | 3天前 |
裸体 Videos HD私密 |
韦斯莱双子(高H)巨肉 | 1天前 |
三个人弄得我走不了路晚上 |
男人靠女人免费视频网站 | 8天前 |
陈芋汐的裸奶无遮挡照片 |
男人撕开👙👙暍奶 | 0天前 |
免费看撕开奶罩揉吮奶头视频 |
触手全彩H漫画 | 1天前 |
女同18❌H动漫 |