清华、北大、人大及中科院、华为等19家科研院校百名学者署名论文涉抄袭,第一作者单位道歉
来源:上游新闻 发布时间:
近日,一则关于百位学者署名的大模型综述研究论文涉嫌抄袭的消息引发关注。上游新闻记者在论文首页看到,这100名学者来自19家科研院校,分别是清华、北大、人大、上海交大等国内高校,哥伦比亚大学、蒙特利尔大学等国外高校,以及字节跳动、华为等企业实验室以及中科院、微软亚洲研究院和北京智源人工智能研究院等科研机构(以下简称:北京智源研究院)。
4月13日,该论文的第一作者单位北京智源研究院官网发布“致歉信”回应:“对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”4月15日,上游新闻记者致电北京智源研究院官网预留座机,电话语音提示“拨打的号码为空号”。
北京智源研究院官微发布“致歉信”谷歌研究员发文,称论文遭抄袭随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式也在与时俱进。4月13日,宾夕法尼亚大学博士生、谷歌研究员 Daphne Ippolito 在社交媒体上表示,智源研究院一篇拥有 100 位作者署名的综述研究《A Roadmap for Big Model》(大模型路线图)涉嫌抄袭了多篇论文内容,其中就包括自己团队成员Nicholas Carlini的一项研究《Deduplicating Training Data Makes Language Models Better》。上游新闻记者注意到,该推文附有Nicholas Carlini博客的链接, Nicholas Carlini 在这篇4月8日的博客中写道:“我的一位合著者正在阅读《A Roadmap for Big Model》论文,并注意到其中一些文本似乎很熟悉,在快速查看后,我们发现实际上有一堆文本是直接从我们的论文中复制而来的。”记者看到,Nicholas Carlini还在博客中举证,自己论文被抄袭的相关部分,左侧以绿色高亮显示的是抄袭论文中的文本,右侧是原始论文中的相应文本。4月12日, Nicholas Carlini 又更新了博客,他写道:“在不知道幕后发生的事情的情况下,我想避免做出判断。也许一些初级作者的本意是好的,认为有一条引文就可以复制文本……对于资深作者来说,他们可能已经阅读了文本,认为它看起来非常合理,并且只是对文本进行了一些调整,而不知道它来自哪里。关键是我们不知道,这篇论文有 100 位作者,任何事情都可能发生。”
原作者论文发布时间(首发2021年7月14日,最后更新时间2022年3月24日)Nicholas Carlini最后写道,“我希望这篇博客能够引起人们对此类事情的注意。例如,大约有 1% 的已发表和被接收的论文比这篇报告有更高的数据复制比例。当初我在写这篇博客的时候应该给出这个背景。所以,再次希望大家不要特别严厉地批评这篇(涉嫌抄袭的)论文。”
涉嫌抄袭论文作者来自19家机构上游新闻记者在这篇涉嫌抄袭的《A Roadmap for Big Model》(大模型路线图)的首页看到,这篇论文的署名作者多达百人,参与的作者来自19家海内外科研院校和机构,包括清华大学、东北大学、纽约大学、北京大学、哥伦比亚大学、哈尔滨工业大学、北京航空航天大学、上海交通大学、蒙特利尔大学,字节跳动AI实验室、华为理论计算机实验室、中科院软件所、自动化所,微软亚洲研究院和北京智源研究院等。
论文首页显示,这100名学者来自19家顶尖科研院校在论文作者介绍部分写道,“唐杰设计了这个大模型路线图”。上游新闻记者在北京智源研究院官网“智源社区”检索看到 ,3月31日,一篇“如何炼大模型?200页pdf100+位作者19家单位!北京智源清华唐杰等发布《大模型路线图》论文,详述预训练大模型资源技术应用”的文章,文章介绍了这篇论文:“北京智源人工智能研究院最近发布的《A Roadmap for Big Model》由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头。从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。非常值得关注。”据清华大学官微《祝贺!5位清华人当选!》国际计算机学会会士的文章介绍,“ 唐杰,清华大学计算机系教授。2006年在清华大学计算机系获得博士学位。研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱。因对信息和社交网络挖掘的贡献而当选。”3月31日,论文第一作者北京智源社区以《如何炼大模型?200页pdf100+位作者19家单位!北京智源清华唐杰等发布》为题介绍该篇论文,牵头人系清华大学教授唐杰
第一作者单位发致歉信:启动独立调查追责4月13日晚,论文第一作者单位北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,并表示:“对这一情况,研究院立即组织内部调查,确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”
智源研究院内部调查的初步结果如下:1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外100位科研人员分别撰写了16篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共257页。报告发布后,根据反馈持续进行修改完善,到4月2日在arXiv网站上已经更新到第三版。2. 4月13日,我们获悉谷歌研究员Nicholas Carlini在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第2篇文章的第3.1节179个词,第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。上游新闻记者统计发现,自查的抄袭部分涉及5个章节,共计613个单词。智源研究院在致歉信中称,对学术不端零容忍,将进一步完善制度管理,通过更加严格的审核机制和更加明确的惩戒措施,对研究院内部以及支持的科研人员加强学风教育,防范同类事件的再次发生。
上游新闻记者 冯盛雍