当前位置:商业频道首页 > 头条推荐 > 正文

不到500美元训练出超水平大模型?

一则斯坦福大学Llama3-V团队抄袭清华系大模型的消息,近日引发热议。北京时间4日凌晨,该团队的两名成员在社交媒体上对这一学术不端行为公开致歉,并表示会将Llama3-V模型悉数撤下。

据悉,两人是斯坦福大学计算机科学专业的本科生,自称在团队中的角色是模型推广,而负责该项目代码编写的是毕业于南加利福尼亚大学Mustafa Aljadery。事发后,他们要求Mustafa提供原创性证明和训练代码,但未取得任何证据。

不到500美元训练出超水平大模型?

南都记者尝试联系率先发现清华系模型被套壳的网友,他表示只是做了一名开源社区工作者应该做的事。此次Llama3-V的抄袭行为,“相当于把可口可乐换成可日可乐就说是自己的项目”。

斯坦福大学AI团队发布模型被指抄袭

事情起源于5月29日,斯坦福大学AI团队发布Llama3-V开源模型,称它比当前开源SOTA视觉语言模型LLaVA的性能提高了10%-20%,不仅尺寸比GPT-4V小近99%,而且性能比肩GPT-4V、Gemini Ultra与Claude Opus。

更重要的是,该大模型的训练成本仅不到500美元。这一惊艳的成果,再加上3位作者出色的专业和技术研发背景,让Llama3-V一经发布就引发各方关注,并一度登上全球最大的开源大模型社区HuggingFace趋势榜第五位。

不过很快,质疑声便出现。6月2日下午,网友Magic Yang称发现了一个令人震惊的事实:Llama3-V项目中有大量疑似抄袭MiniCPM-Llama3-V 2.5的内容,同时晒出了多项涉嫌抄袭的证据。

比如在模型结构和配置文件上,二者高度雷同,只是变量名不同。Llama3-V的代码也几乎完全照抄MiniCPM-Llama3-V 2.5,仅做了一些重新格式化和变量重命名,包括但不限于图像切片、分词器、重采样器、数据加载等变量。

热点推送

本周关注

MORE