
马斯克再次跳过了所有正式流程,没有官方博客、技术文档甚至在宣传推文中还犯了拼写错误。然而,在这种典型的“马斯克风格”下,Grok 4.20 Beta 版悄然上线并完成了更新。

正如之前所言,Grok 4.20 引入了一种快速学习机制,能够持续进化。自公测开始以来,它每周都会通过用户的真实互动进行迭代,不再等待下一次大型版本的更新。

对于目前的 Grok 4.20 版本,xAI 的官方介绍为“四名代理”,这意味着与以往单一模型不同,新版中包含了一个由四个智能体组成的团队,在处理复杂查询时会自动启用。

根据之前内测用户分享的信息,这四个智能体各自拥有独特的名称、设定和技能:
- Grok:协调者,以其机智和诚实著称;负责综合最终输出结果。
- Harper:研究专家,实时核查事实来源并验证信息准确性。
- Benjamin:逻辑与编程专家,擅长严谨推理及技术深度分析。
- Lucas:创意天才,挑战假设、探索替代方案以避免群体思维倾向。
这些智能体在内部讨论(用户通常可以看到他们的思考过程),达成共识后提供统一且高质量的响应。

该方法显著降低了幻觉现象(据 X 用户 @NoahKingJr 称,测试报告显示幻觉下降了约65%),并提高了工程、预测、战略和多步推理等领域的可靠性。
需要注意的是,在机器之心最近的测试中,Grok 4.20 并未使用 Lucas、Harper 和 Benjamin 这些名字,而是采用了 Agent 1 至 Agent 3 的代号。

尽管 xAI 目前尚未发布相关博客和技术报告,也没有公开评测数据,但已有一些第三方机构发布了他们的评估结果。
比如 Arena AI 发布了一组数据显示,在 Search Arena 测试中,Grok 4.20 击败了 GPT-5.2 和 Gemini 3.0 Pro 等模型,以第一名的成绩脱颖而出。该测试旨在评测其搜索实时信息、外部知识和引用可靠性的能力。

在评估 LLM 在通用语言表达、精确度及文化理解力的 Text Arena 测试中,Grok 4.20 排名第四。

下表展示了更多的评测数据:

另外,在真实股票交易基准 Alpha Arena 中,Grok 4.20 的表现也十分出色。使用 Situational Awareness 策略的 Grok 以显著胜率荣登榜首。

下面是一些更具体的数据展示:

几个实测
我们对新版 Grok 4.20 进行了实际测试,首先考察其搜索能力。鉴于关于该版本的信息不多,我们提出了一个关于它自身的问题:
搜索网络上所有关于 Grok 4.20 的信息,并汇总成一份报告,涵盖技术细节和基准指标。
可以看到,由于任务比较简单,Grok 仅启用了默认的智能体 Grok,在不到一分钟的时间内完成了任务。生成的报告中包含了一些之前未提及的信息,整体来说是一份非常有用的报告,特别是其独特的 X 推文检索能力对写作报道非常有帮助。

我们尝试了一个难度更高的任务:创建一个展示日晷工作原理的动态 SVG 图形。
此次 Grok 4.20 的多智能体模式被激活,并成功制作出了效果尚可的嵌入了SVG的网页:

还有网友直接要求其用 three.js 编制一个 FPS 游戏,这个原型充分利用了Grok 4.2 快速生成代码、实时工具集成和清晰逻辑结构的优势。

它在一次性提供完整且可以直接运行的文件方面比 Claude Code 和 Codex 明显更胜一筹。

「确实又快又准,几乎不出错,可以把脑子里刚冒出来的想法迅速转化为原型,实在太棒了!」
接下来我们测试了一下 Grok 4.20 的创作能力,要求其为当前文章提供一个标题并将其改写成适合发布在小红书上的风格。结果如下:

最后按照 Grok 系列的传统,在“毒舌怼人”方面,Grok 4.20 表现得相当出色。正如马斯克分享的推文所示,当用户问到 AI “为什么这么愚蠢”,Claude 的回答十分正式,而 Grok 则直接回应:“因为我在拉低智商配合你”。

最后,按照 Grok 系列一贯的传统,Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样,当用户问 AI「你为何如此弱智」时,Claude 的回答一板一眼,而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。

文中视频链接:https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg
