去年7月举行的国际数学奥林匹克竞赛上,两家人工智能公司因争夺金牌成绩而引发了广泛关注。
当时OpenAI和谷歌都宣称取得了金牌的成绩,但OpenAI由于提前违反官方规则宣布结果而受到了批评;谷歌DeepMind的Gemini进阶模型则是首个被奥赛组委会正式认定为金牌的人工智能系统。
竞赛与真正的数学研究之间仍存在明显的界限。
自那之后,AI的发展迅速加快,其解决数学问题的能力不再仅仅依赖于推理能力。现在,这些智能体能够自主进行数学研究,并且可以处理即便是顶尖数学家也感到棘手的问题,这代表着怎样的进步?
最近,由谷歌DeepMind研发、采用Gemini 3 Deep Think模型驱动的最新数学研究AI系统Aletheia,在首次举办的FirstProof挑战赛中,成功解决了其中10道高难度问题中的6道,创造了该赛事的最佳纪录。

负责DeepMind超人类推理项目的负责人Thang Luong表示,这项成就的重要性超过了去年AI在IMO测试中获得金牌的成绩。
相关的论文《Aletheia tackles FirstProof autonomously》已在arXiv上发布,并且团队也在Github上公开了用于解决FirstProof问题的提示词与输出结果。

- 该挑战赛旨在评估人工智能进行数学研究的能力。它由活跃在各数学分支的一线研究人员发起,题目全部来自实际科研过程中的命题,被设计为测试当前AI技术能力的标准。
- 这些问题在此之前从未公开过证明,组织方提前将标准答案加密保存,以防止训练数据泄露的风险。最终提交的答案需要经过领域专家的审核,判断其逻辑严密性与学术可行性。
- 为了提高挑战难度,FirstProof测试了AI在面对陌生问题时进行长期推理和结构构建的能力。简单来说,这项挑战关注的是系统是否具备参与数学研究的潜力。
这些题目于2026年2月5日发布,并设定了太平洋时间2026年2月13日晚上11:59为提交截止日期,解决方法在截止后会在互联网上公布。
该评估本身极具挑战性,能够理解这些问题的专家寥寥无几。值得一提的是:Aletheia的所有解答均是在无人工干预的情况下生成,并且完全遵守了FirstProof规定的时限。
第一作者确认了这一事实:
研究团队运行了两个版本的Aletheia(仅在底层基础模型上有所不同),它们都由Gemini DeepThink提供支持。根据多数专家评审意见,这两个系统共同解决了10道题中的6道。
专家们对第8题的评估并不完全一致,在7位专家中有5位给出了「Correct」的评价。
在FirstProof挑战中,Aletheia A与Aletheia B针对相同的六道题目都生成了候选解答。每个智能体在单独评审时至少出现过一次「假阳性」情况,但在双重评审机制下,它们共同为六题提供了可信的答案。

研究团队执行整体流程
两个版本的Aletheia相比之前用于解决Erdős问题的系统,在准确率上有了显著提高。

对于另外4道未解决的问题(P1、P3、P4、P6),两个智能体都没有给出解答,要么明确表示「无解」,要么在时间限制内没有返回任何结果。

研究团队指出,Aletheia具备一种自我筛选机制,这也是其设计原则之一。
在将AI扩展为数学研究助手的过程中,可靠性是首要考虑的问题。如果智能体给出错误的「幻觉」答案,则会浪费人类专家的时间和精力,与提高效率的目标背道而驰。
此外,解决问题所需的推理成本也是一个重要的指标。

每个候选解的推理成本被表示为相对于Erdős-1051解答推理成本的倍数。可以看到,在所有问题上,Aletheia的推理成本都高于Erdős-1051。
尤其是P7题目的推理成本比此前观察到的情况高出一个数量级,这主要是因为Generator子智能体在生成候选解时消耗了大量的计算资源,并且需要更多轮交互才能通过Verifier子智能体的验证。
数学研究包括提出问题、建立框架、寻找关键结构和完成证明等多个环节。当前系统显然还无法全面承担所有角色,但它已经开始在证明与验证阶段发挥作用。
未来的研究场景可能会发生变化。人类研究人员可以提供方向和核心思想,AI则处理高强度的路径搜索与形式化验证工作,最终再由人类进行理论整合与升华。这种协作模式正逐渐成形。
数学一直是人类理性能力的一个象征性高地。如今,人工智能在此领域取得了实质性的突破。当机器开始稳定地完成研究级别的证明时,我们或许需要重新思考一个问题:
在未来的数学论文作者名单中,AI将以何种身份出现?

在图中展示了每个候选解的推理成本,并将其表示为相对于 Erdős-1051 解答推理成本的倍数。不难发现,Aletheia 在所有问题上,推理成本都高于 Erdős-1051。
尤其是 P7,其推理成本比此前观察到的规模高出一个数量级。研究者称,这一方面是因为 Generator 子智能体在生成候选解时消耗了大量计算资源,另一方面是因为需要更多轮交互才能通过 Verifier 子智能体的验证。
总结
数学研究包含多个环节:提出问题、建立框架、寻找关键结构、完成证明。当前系统显然还无法全面承担所有角色,但它已经开始在证明与验证环节发挥作用。
未来的研究场景或许会发生变化。人类研究者提出方向与核心思想,AI 负责高强度的路径搜索与形式化验证,再由人类进行理论整合与升华。这种协作模式,正在逐渐成形。
数学长期以来被视为人类理性能力的高地。如今,AI 正在这里取得实质性突破。当机器开始稳定地完成研究级证明,我们或许需要重新思考一个问题:
在未来的数学论文作者名单中,AI 会以什么身份出现?
