谷歌在FirstProof数学挑战中创下难以突破的新纪录，超越IMO金牌水平

作者：世界网2026年2月27日科技新闻0 阅读

去年7月举行的国际数学奥林匹克竞赛上，两家人工智能公司因争夺金牌成绩而引发了广泛关注。

当时OpenAI和谷歌都宣称取得了金牌的成绩，但OpenAI由于提前违反官方规则宣布结果而受到了批评；谷歌DeepMind的Gemini进阶模型则是首个被奥赛组委会正式认定为金牌的人工智能系统。

竞赛与真正的数学研究之间仍存在明显的界限。

自那之后，AI的发展迅速加快，其解决数学问题的能力不再仅仅依赖于推理能力。现在，这些智能体能够自主进行数学研究，并且可以处理即便是顶尖数学家也感到棘手的问题，这代表着怎样的进步？

最近，由谷歌DeepMind研发、采用Gemini 3 Deep Think模型驱动的最新数学研究AI系统Aletheia，在首次举办的FirstProof挑战赛中，成功解决了其中10道高难度问题中的6道，创造了该赛事的最佳纪录。

负责DeepMind超人类推理项目的负责人Thang Luong表示，这项成就的重要性超过了去年AI在IMO测试中获得金牌的成绩。

相关的论文《Aletheia tackles FirstProof autonomously》已在arXiv上发布，并且团队也在Github上公开了用于解决FirstProof问题的提示词与输出结果。

该挑战赛旨在评估人工智能进行数学研究的能力。它由活跃在各数学分支的一线研究人员发起，题目全部来自实际科研过程中的命题，被设计为测试当前AI技术能力的标准。
这些问题在此之前从未公开过证明，组织方提前将标准答案加密保存，以防止训练数据泄露的风险。最终提交的答案需要经过领域专家的审核，判断其逻辑严密性与学术可行性。
为了提高挑战难度，FirstProof测试了AI在面对陌生问题时进行长期推理和结构构建的能力。简单来说，这项挑战关注的是系统是否具备参与数学研究的潜力。

这些题目于2026年2月5日发布，并设定了太平洋时间2026年2月13日晚上11:59为提交截止日期，解决方法在截止后会在互联网上公布。

该评估本身极具挑战性，能够理解这些问题的专家寥寥无几。值得一提的是：Aletheia的所有解答均是在无人工干预的情况下生成，并且完全遵守了FirstProof规定的时限。

第一作者确认了这一事实：

研究团队运行了两个版本的Aletheia（仅在底层基础模型上有所不同），它们都由Gemini DeepThink提供支持。根据多数专家评审意见，这两个系统共同解决了10道题中的6道。

专家们对第8题的评估并不完全一致，在7位专家中有5位给出了「Correct」的评价。

在FirstProof挑战中，Aletheia A与Aletheia B针对相同的六道题目都生成了候选解答。每个智能体在单独评审时至少出现过一次「假阳性」情况，但在双重评审机制下，它们共同为六题提供了可信的答案。

研究团队执行整体流程

两个版本的Aletheia相比之前用于解决Erdős问题的系统，在准确率上有了显著提高。

对于另外4道未解决的问题（P1、P3、P4、P6），两个智能体都没有给出解答，要么明确表示「无解」，要么在时间限制内没有返回任何结果。

研究团队指出，Aletheia具备一种自我筛选机制，这也是其设计原则之一。

在将AI扩展为数学研究助手的过程中，可靠性是首要考虑的问题。如果智能体给出错误的「幻觉」答案，则会浪费人类专家的时间和精力，与提高效率的目标背道而驰。

此外，解决问题所需的推理成本也是一个重要的指标。

每个候选解的推理成本被表示为相对于Erdős-1051解答推理成本的倍数。可以看到，在所有问题上，Aletheia的推理成本都高于Erdős-1051。

尤其是P7题目的推理成本比此前观察到的情况高出一个数量级，这主要是因为Generator子智能体在生成候选解时消耗了大量的计算资源，并且需要更多轮交互才能通过Verifier子智能体的验证。

数学研究包括提出问题、建立框架、寻找关键结构和完成证明等多个环节。当前系统显然还无法全面承担所有角色，但它已经开始在证明与验证阶段发挥作用。

未来的研究场景可能会发生变化。人类研究人员可以提供方向和核心思想，AI则处理高强度的路径搜索与形式化验证工作，最终再由人类进行理论整合与升华。这种协作模式正逐渐成形。

数学一直是人类理性能力的一个象征性高地。如今，人工智能在此领域取得了实质性的突破。当机器开始稳定地完成研究级别的证明时，我们或许需要重新思考一个问题：

在未来的数学论文作者名单中，AI将以何种身份出现？

在图中展示了每个候选解的推理成本，并将其表示为相对于 Erdős-1051 解答推理成本的倍数。不难发现，Aletheia 在所有问题上，推理成本都高于 Erdős-1051。

尤其是 P7，其推理成本比此前观察到的规模高出一个数量级。研究者称，这一方面是因为 Generator 子智能体在生成候选解时消耗了大量计算资源，另一方面是因为需要更多轮交互才能通过 Verifier 子智能体的验证。

总结

数学研究包含多个环节：提出问题、建立框架、寻找关键结构、完成证明。当前系统显然还无法全面承担所有角色，但它已经开始在证明与验证环节发挥作用。

未来的研究场景或许会发生变化。人类研究者提出方向与核心思想，AI 负责高强度的路径搜索与形式化验证，再由人类进行理论整合与升华。这种协作模式，正在逐渐成形。

数学长期以来被视为人类理性能力的高地。如今，AI 正在这里取得实质性突破。当机器开始稳定地完成研究级证明，我们或许需要重新思考一个问题：

在未来的数学论文作者名单中，AI 会以什么身份出现？

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

谷歌在FirstProof数学挑战中创下难以突破的新纪录，超越IMO金牌水平

作者：世界网2026年2月27日科技新闻0 阅读

去年7月举行的国际数学奥林匹克竞赛上，两家人工智能公司因争夺金牌成绩而引发了广泛关注。

竞赛与真正的数学研究之间仍存在明显的界限。

负责DeepMind超人类推理项目的负责人Thang Luong表示，这项成就的重要性超过了去年AI在IMO测试中获得金牌的成绩。

相关的论文《Aletheia tackles FirstProof autonomously》已在arXiv上发布，并且团队也在Github上公开了用于解决FirstProof问题的提示词与输出结果。

该挑战赛旨在评估人工智能进行数学研究的能力。它由活跃在各数学分支的一线研究人员发起，题目全部来自实际科研过程中的命题，被设计为测试当前AI技术能力的标准。
这些问题在此之前从未公开过证明，组织方提前将标准答案加密保存，以防止训练数据泄露的风险。最终提交的答案需要经过领域专家的审核，判断其逻辑严密性与学术可行性。
为了提高挑战难度，FirstProof测试了AI在面对陌生问题时进行长期推理和结构构建的能力。简单来说，这项挑战关注的是系统是否具备参与数学研究的潜力。

这些题目于2026年2月5日发布，并设定了太平洋时间2026年2月13日晚上11:59为提交截止日期，解决方法在截止后会在互联网上公布。

第一作者确认了这一事实：

专家们对第8题的评估并不完全一致，在7位专家中有5位给出了「Correct」的评价。

研究团队执行整体流程

两个版本的Aletheia相比之前用于解决Erdős问题的系统，在准确率上有了显著提高。

对于另外4道未解决的问题（P1、P3、P4、P6），两个智能体都没有给出解答，要么明确表示「无解」，要么在时间限制内没有返回任何结果。

研究团队指出，Aletheia具备一种自我筛选机制，这也是其设计原则之一。

此外，解决问题所需的推理成本也是一个重要的指标。

每个候选解的推理成本被表示为相对于Erdős-1051解答推理成本的倍数。可以看到，在所有问题上，Aletheia的推理成本都高于Erdős-1051。

在未来的数学论文作者名单中，AI将以何种身份出现？

总结

数学长期以来被视为人类理性能力的高地。如今，AI 正在这里取得实质性突破。当机器开始稳定地完成研究级证明，我们或许需要重新思考一个问题：

在未来的数学论文作者名单中，AI 会以什么身份出现？

“”

谷歌在FirstProof数学挑战中创下难以突破的新纪录，超越IMO金牌水平

谷歌在FirstProof数学挑战中创下难以突破的新纪录，超越IMO金牌水平

相关文章

相关文章