一则斯坦福大学Llama3-V团队抄袭清华系大模型的消息,近日引发热议。北京时间4日凌晨,该团队的两名成员在社交媒体上对这一学术不端行为公开致歉,并表示会将Llama3-V模型悉数撤下。
据悉,两人是斯坦福大学计算机科学专业的本科生,自称在团队中的角色是模型推广,而负责该项目代码编写的是毕业于南加利福尼亚大学Mustafa Aljadery。事发后,他们要求Mustafa提供原创性证明和训练代码,但未取得任何证据。
南都记者尝试联系率先发现清华系模型被套壳的网友,他表示只是做了一名开源社区工作者应该做的事。此次Llama3-V的抄袭行为,“相当于把可口可乐换成可日可乐就说是自己的项目”。
斯坦福大学AI团队发布模型被指抄袭
事情起源于5月29日,斯坦福大学AI团队发布Llama3-V开源模型,称它比当前开源SOTA视觉语言模型LLaVA的性能提高了10%-20%,不仅尺寸比GPT-4V小近99%,而且性能比肩GPT-4V、Gemini Ultra与Claude Opus。
更重要的是,该大模型的训练成本仅不到500美元。这一惊艳的成果,再加上3位作者出色的专业和技术研发背景,让Llama3-V一经发布就引发各方关注,并一度登上全球最大的开源大模型社区HuggingFace趋势榜第五位。
不过很快,质疑声便出现。6月2日下午,网友Magic Yang称发现了一个令人震惊的事实:Llama3-V项目中有大量疑似抄袭MiniCPM-Llama3-V 2.5的内容,同时晒出了多项涉嫌抄袭的证据。
比如在模型结构和配置文件上,二者高度雷同,只是变量名不同。Llama3-V的代码也几乎完全照抄MiniCPM-Llama3-V 2.5,仅做了一些重新格式化和变量重命名,包括但不限于图像切片、分词器、重采样器、数据加载等变量。
GitHub项目信息显示,MiniCPM-Llama3-V2.5共有8B个参数,整体性能超越GPT-4V-1106、GeminiPro、Qwen-VL-Max和Claude3等专有模型,配备了增强的OCR和指令跟踪能力,还可以支持英语、中文、法语等30多种语言的多模态对话。这款端测多模态开源模型,由清华大学自然语言处理实验室与面壁智能合作开发,于今年5月20日推出。
对话打假者:发现抄袭不难证实不易
南都记者尝试联系这位揭露Llama3-V涉嫌抄袭的网友MagicYang(知乎网名“社恐患者杨老师”),他向南都记者回顾了这场打假的过程。杨老师表示,最近正在帮助一名博士生做有关运动处方的项目,想选择一个质量较好的开源模型作为微调的基座。此前他曾测试了MiniCPM-Llama3-V2.5,因此对MiniCPM的模型架构和代码都相对熟悉。
后来他注意到,Llama3-V项目在HuggingFace上排名非常靠前,且获得了相关博主推荐,于是想进一步做测试。但在这过程中,他发现二者在模型架构和代码上存在高度相似的情况,就此询问了Llama3-V作者。结果对方避重就轻,并不正面回应,随后更是将质疑帖子删除,且隐藏了MiniCPM-Llama3-V2.5的项目主页。
这一系列的操作,令人生疑。6月2日下午,杨老师把所知的证据发到MiniCPM-V的Github项目主页,并提醒面壁智能团队关注。相关对话截图显示,Llama3-V项目作者最初否认抄袭,并称他们的项目开始时间更早,只是使用了MiniCPM-V2的分词器。
杨老师告诉南都记者,作为一个有大模型经验的开发者,发现(抄袭行为)不难,但要证实不易。此事最终一锤定音,还是因为面壁智能团队使用内部数据集“清华简”做了对比测试。
“连错的都一模一样”,确信是套壳
6月2日深夜,面壁智能团队证实了抄袭行为的存在。经核实,除了社区网友列出的证据外,还发现Llama3-V项目与MiniCP-Llama3-V 2.5一样,可以识别出“清华简”战国古文字,“不仅对的一模一样,连错的都一模一样”。
据面壁智能首席科学家、清华大学长聘副教授刘知远介绍,“清华简”的识别能力,是MiniCPM-Llama3-V2.5研发时内置了一个彩蛋。这是该团队花费数月从清华简逐字扫描,人工标注而来的数据集,并未公开,由此“已经比较确信Llama3-V是对MiniCPM-Llama3-V2.5套壳。”
针对此事,面壁智能CEO李大海也发文称,深表遗憾。“技术创新不易,好的成果希望被更多人关注和认可,但不是以这种方式。”李大海呼吁,大家共建开放、合作、有信任的社区环境。
刘知远也表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA(意为“最新技术”的最佳状态)的肩上持续前进。“开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。”同时他提到,Llama3-V团队的3位作者中,有两位是斯坦福大学本科生,未来还有很长的路,“如果知错能改,善莫大焉”。
北京时间4日凌晨,卷入此次风波的两名斯坦福大学本科生在社交平台上解释,称该项目由3人发布,他们只在其中帮忙推广模型,负责代码编写的是MustafaAljadery。事发后,他们曾尝试联系Mustafa发布原创性声明,并提供训练代码,但到目前为止还未看到任何证据。在这份联合声明中,两人再次向原作者道歉,并称对未尽职尽责确保Llama3-V的独创性而感到失望,现已将所有对Llama3-V的引用都删除了。
被推为主要责任方的Mustafa,是团队中唯一的全职成员。其本硕毕业于南加利福尼亚大学,主攻深度学习和数学,是一名软件工程师。截至目前,Mustafa尚未发声。
两名作者的解释,尚不能平息质疑。斯坦福人工智能实验室主任Christopher David Manning公开发文谴责这一抄袭行为,称两人借口推脱,是拒不认错的表现。
面壁智能核心团队来自清华NLP实验室
此次被牵涉进抄袭风波中的面壁智能创立于2022年8月,团队的核心成员来自清华大学自然语言处理与社会人文计算实验室(THUNLP)——该实验室也撑起了去年大模型创业浪潮以来的“半壁江山”,跑出了生数科技、深言科技等人工智能企业和华为的“盘古大模型”。
今年4月,南都记者从面壁智能方面获悉,该公司已完成了新一轮数亿元融资,该轮次融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,而知乎作为战略股东持续跟投支持。据悉,该轮融资将用于人才引入、大模型底层算力与数据基础的建构以及推动大模型高效训练和应用落地。
后续进展
6月5日,面壁智能发布消息称,作为开源社区的贡献者和受益者,面壁智能,OpenBMB&清华NLP实验室认真讨论决定,将面壁“小钢炮”MiniCPM免费商用。即日起,MiniCPM和MiniCPM-V权重将对学术研究完全开放,并且企业、个人在填写问卷登记后亦允许商业使用,社区使用MiniCPM系列模型需要遵循Apache2.0和《MiniCPM模型社区许可协议》。
每经AI快讯,有投资者在投资者互动平台提问:贵公司是否生产寻呼机,对讲机之类的直线呼叫设备? 中海达(300177.SZ)12月27日在投资者互动平台表示,公司北斗高精度手持终端产品,是一款小型化厘米级北斗高精度手机,支持双模对讲
2024-12-27北斗,中海达,高精度每经AI快讯,有投资者在投资者互动平台提问:请问公司目前业务是以国内客户为主吗,客户主要分布在国内哪些区域呢? 水晶光电(002273.SZ)12月27日在投资者互动平台表示
2024-12-27消费电子,水晶光电,公司中国经济网北京12月27日讯(记者刘芃)国家统计局今日发布数据显示,1—11月份,全国规模以上工业企业实现利润总额66674.8亿元,同比下降4.7%
2024-12-27利润,增长,行业每经AI快讯,有投资者在投资者互动平台提问:董秘您好,请问贵司今年新能源汽车精密冲压模具和金属结构件毛利率同比下降比较多的原因是产品降价还是成本上涨?储能设备精密冲压模具和金属结构件毛利率同比也是下降较多
2024-12-27祥鑫科技,毛利率,公司每经AI快讯,有投资者在投资者互动平台提问:董秘你好!贵公司股票目前有ST或退市的可能吗? 华平股份(300074.SZ)12月27日在投资者互动平台表示,公司目前经营状况稳定,各项业务有序开展,不存在退市风险
2024-12-27公司,华平股份,退市每经AI快讯,有投资者在投资者互动平台提问:请问贵公司是否有AI眼镜相关方面的客户?是否有可用于ai眼镜的相关产品? 胜蓝股份(300843.SZ)12月27日在投资者互动平台表示,公司暂无涉及AI眼镜的业务
2024-12-27胜蓝股份,投资者,AI每经AI快讯,有投资者在投资者互动平台提问:公司的减速器能用于人形机器人吗? 山东矿机(002526.SZ)12月27日在投资者互动平台表示,公司生产的JS系列减速器目前配套煤矿用输送设备使用
2024-12-27减速器,山东矿机,煤矿12月27日,禾赛科技宣布,新获国内三家销量Top5车企的十余款量产车型定点,加上近期获得的长城、长安等头部主机厂的多个新车型定点,禾赛科技已累计获得来自21家车企的超过100款前装量产定点车型
2024-12-27禾赛科技,车企,量产每经AI快讯,有投资者在投资者互动平台提问:请问贵司有没有为“宇树科技”以及相关产业链供货? 宝鼎科技(002552.SZ)12月26日在投资者互动平台表示,投资者您好,公司覆铜板及铜箔主要供应给PCB厂商,其下游客户公司并不掌握
2024-12-27宝鼎科技,投资者,PCB每经AI快讯,有投资者在投资者互动平台提问:请问董秘,国家家电产品洗衣机洗碗机补贴力度这么大,以旧换新销量大涨,但公司业绩怎么不见增长,是管理出问题还是产品出问题? 汉宇集团(300403.SZ)12月27日在投资者互动平台表示
2024-12-27汉宇集团,公司,投资者每经AI快讯,有投资者在投资者互动平台提问:公司在低空经济相关上布局很多,请问在相关方向的业务是否有收入? 中海达(300177.SZ)12月27日在投资者互动平台表示,针对低空领域
2024-12-27激光雷达,公司,中海达每经AI快讯,有投资者在投资者互动平台提问:从目前情况来说,FCBGA工厂距离最后一步就只差小批量转大批量这一步了? 兴森科技(002436.SZ)12月27日在投资者互动平台表示,尊敬的投资者
2024-12-27兴森科技,量产,投资者每经AI快讯,有投资者在投资者互动平台提问:董秘,您好,看到浙江天台网的信息,贵公司年产700万台,每台盈利100以上。并且近期生产线爆满
2024-12-27万胜智能,投资者,互动平台每经AI快讯,有投资者在投资者互动平台提问:公司近期无人机相关业务是否有显著增加
2024-12-27中海达,公司,北斗高精度定位装备市场风格突变。 今日,A股开盘后,芯片、低空经济、军工等概念股全线走强,中芯国际一度大涨超5%,微盘股指数涨超2%。前期涨势如虹的红利股则出现回调,银行板块全线走低
2024-12-27市场,2025,存储器每经AI快讯,有投资者在投资者互动平台提问:请问董秘,2024年马上过去了,公司今年新签的合同金额一共有多少?大概分布在哪些领域? 国统股份(002205.SZ)12月27日在投资者互动平台表示,您好!目前公司生产经营正常,在手订单充足
2024-12-27国统股份,投资者,公司每经AI快讯,有投资者在投资者互动平台提问:二股东股份转让已经过去半年,一直没有转让成功,根据协议11月30日如未能转让成功,任何一方都可以解除协议,直至目前12月底转让协议进行到哪一步,是否得到审批部分转让确实书,还是双方正在解除协议
2024-12-27京威股份,转让,投资者证券时报e公司讯,企查查APP显示,近日,苏交科(深圳)交通科技有限公司成立,法定代表人为石海峰,注册资本300万元,经营范围包含:规划设计管理;专业设计服务;工程管理服务;人工智能基础资源与技术平台;人工智能应用软件开发等
2024-12-27苏交科,人工智能,公司2024年是中国新能源汽车快速发展的一年,新能源汽车零售销量有望达到1100万辆,且渗透率即将连续6个月超过50%。在面对重大发展机遇的同时,行业的竞争也更加激烈。站在当下看未来,只有不断进行技术创新与突破,才能在这场竞争中赢得优势
2024-12-27赛力斯,回购股份,回购每经AI快讯,有投资者在投资者互动平台提问:董秘您好。公司专注新能源,拓展全球市场
2024-12-27岱勒新材,氢能源,公司每经AI快讯,有投资者在投资者互动平台提问:请问贵公司有相关材料应用到足球吗,如有主要是应用在哪些品牌上,体量有多大? 安利股份(300218.SZ)12月27日在投资者互动平台表示
2024-12-27安利股份,公司,足球每经AI快讯,有投资者在投资者互动平台提问:董秘你好公司在露营经济领域有布局生产哪些户外用品? 汇隆新材(301057.SZ)12月27日在投资者互动平台表示,公司主要产品是使用原液着色技术生产的差别化有色涤纶长丝
2024-12-27汇隆新材,户外用品,投资者证券时报e公司讯,企查查APP显示,近日,耀旗科技(宁德)有限公司成立,法定代表人为江中求,注册资本100万元,经营范围包含:智能机器人销售;人工智能硬件销售;仓储设备租赁服务等
2024-12-27智能机器人,荣旗科技,公司每经AI快讯,有投资者在投资者互动平台提问:董秘您好,请问贵公司的钛合金相关产品应用于什么领域? 银邦股份(300337.SZ)12月27日在投资者互动平台表示,公司产品的应用领域已在公司的定期报告内进行过披露
2024-12-27消费电子,银邦股份,复合材料每经AI快讯,有投资者在投资者互动平台提问:关注到浙江银轮公告子公司开山银轮获得也冷服务器订单,而开山银轮是开山股份控股50%的,那么请公司具体说明一下开山银轮获得液冷服务器订单的情况
2024-12-27浙江,开山股份,银轮每经AI快讯,有投资者在投资者互动平台提问:董秘您好!请问贵公司有没有开始接明年1、2月份的订单,明天美国对中国医用手套增加50%的关税,对公司1、2月份的订单有没有影响,是否还能保证满产满销
2024-12-27公司,英科医疗,投资者每经AI快讯,有投资者在投资者互动平台提问:董秘你好公司在东数西算算力领域有哪些布局涉足? 润阳科技(300920.SZ)12月27日在投资者互动平台表示,公司目前以少量出资参股持有上海恒密算力科技有限公司10%的股权
2024-12-27算力,AI,企业在并购热潮之下,海尔系推出了被外界称为“蛇吞象”的重组计划。 12月23日,海尔生物(688139)和上海莱士(002252)双双停牌,发布重大资产重组公告
2024-12-27上海莱士,海尔生物,海尔深圳商报·读创客户端记者李耿光 12月26日,北交所官网显示,浙江荣鹏气动工具股份有限公司(以下简称“荣鹏股份”)北交所IPO获受理。保荐机构为国泰君安证券股份有限公司
2024-12-27荣鹏股份,公司,报告期每经AI快讯,有投资者在投资者互动平台提问:董秘你好,安费诺是公司的客户嘛? 楚江新材(002171.SZ)12月27日在投资者互动平台表示,安费诺是公司的客户
2024-12-27安费诺,楚江新材,投资者