全球顶尖的人工智能学术会议正遭遇AI技术的巨大冲击。
这看似是一个讽刺的情节,却在现实中上演了。最新数据显示,在ICLR 2026会议上,超过一万五千份评审意见是由人工智能系统撰写而成的。
想象一下,你耗费大量精力撰写的论文可能根本无人过目,只是被直接交给AI工具生成了一些“标准”的反馈,并且这些反馈中甚至还包含了对文中不存在的数据错误指责。
曾经被视为严谨的同行评审制度,如今正逐渐沦为一场由人工智能生成内容主导的游戏。
根据统计,大约21%的评审意见被判定为完全由AI自动生成。此外,投稿论文本身也混入了大量的AI“代笔”。面对这场前所未有的信任危机,ICLR组织方终于采取了行动,并发布了史上最严厉的规定来遏制这一现象。
研究人员开始收到令人困惑的评审报告
“评审意见冗长且空洞,要求进行非标准的数据分析。”美国卡内基梅隆大学的人工智能研究员格雷厄姆·诺伊比格说道。社交媒体上,数十名学者纷纷表达了他们对这一现象的不满:评审中出现了“幻觉”引用,反馈异常冗长且含糊不清。
丹麦哥本哈根大学的一支科研团队则遭遇了一个令人哭笑不得的情况——评审意见提到论文中不存在的具体数值,并据此给出最低评分。该团队成员直觉判断这可能是大型语言模型的产物。
数据揭示:大量AI“影子”藏匿于审稿之中
疑惑需要证实。诺伊比格公开悬赏,很快得到了专业AI文本检测公司Pangram Labs的支持。他们对ICLR 2026提交的论文及评审进行了大规模扫描。
结果令人震惊:
· 大约21%的同行评审(共15,899份)被判定为完全由AI生成。
· 超过一半的评审中发现了使用AI工具的迹象。
· 即使投稿论文本身也未能幸免:有1%(199篇)被确认是完全由AI编写的,另外还有9%的文章包含超过50%以上的AI生成文本。
“人们之前只是猜测而没有具体证据。”Pangram的首席执行官马克斯·斯佩罗表示,他们的分析为这一现象提供了确凿的数据支持。
会议采取强硬措施:用大语言模型糊弄?直接重罚!
面对大规模的人工智能滥用情况,ICLR组织方迅速做出了反应,并发布了一份措辞严厉的声明。会议高级项目主席巴拉特·哈里哈兰承认这是首次面对如此规模的问题。
· 论文投稿:使用AI不声明=直接拒稿
组织方明确指出,如果大量使用大语言模型撰写论文却没有进行声明,将被直接拒绝。同时,“虚构数据、编造文献和逻辑错误”将被视为违反学术道德准则。
· 同行评审:允许AI撰写但责任自负
声明还强调了在同行评审环节中使用大语言模型写作是可以接受的,但是评审人必须对内容承担责任。如果出现“胡编乱造、虚构引用”的情况,则直接记违规,并可能影响到该评审人的其他投稿。
· 作者遇到问题可以立即举报
如果论文作者收到了疑似由AI生成的低质量评审意见,可立即向程序组私信举报。程序组承诺会进行处理以维护评审过程的公正性。
· 确实执行:所有处罚结果将公开
接下来的1-2周内,领域主席和高级领域主席将会严格审查论文与评审内容,并将所有处理的结果公之于众。会议方表示:“我们早已预料到大语言模型会带来麻烦,现在到了真正行动的时候。”
深层问题:评审压力与学术诚信的博弈
这场风波也揭示了人工智能领域繁荣背后隐藏的问题。
· 审稿工作量过大:ICLR 2026每位审稿人需要在两周内完成五篇论文的审核。这远远超出了以往的工作强度。
· 领域扩张迅速:“过去五年,AI领域呈指数级增长,我们正面临严重的评审危机。”诺伊比格说道。
学者面临的挑战:如何应对“AI废话”的冲击?
一些作者因为收到虚假陈述的评审意见而撤回了他们的论文。更多人则在思考该如何回应这些充满“AI风格”的评审意见。
埃利奥特的经验极具代表性:“疑似AI生成的评审往往包含大量无关紧要的内容。”其中部分可能有意义,但大多数则是完全无用的信息,在信息爆炸的时代下如何区分有效反馈成为了研究人员的新挑战。
ICLR这一事件无疑为整个学术界敲响了警钟:当人工智能变得足够聪明,不仅能帮助研究工作还能“污染”科研诚信的核心环节——同行评审时,我们依赖的信任机制将面临怎样的考验?
