在46.5万次盲测中夺冠！Grok视频模型称霸Arena，谷歌迎来强劲挑战者

作者：世界网2026年2月25日科技新闻5 阅读

新智元报道

马斯克亲自为grok-image-video-720p这款视频模型站台，该模型在46万次盲测投票中获得第一名。xAI的这一「压箱底」之作，在基准测试上超越了谷歌Veo 3.1 Fast，并且使用成本更低。

近日，AI视频领域再次迎来重大变化！

xAI的Grok图像转视频模型（grok-image-video-720p）在「Image-to-Video Arena」排行榜上以1404分的超高ELO评分占据榜首位置。

马斯克在个人社交媒体平台上为自家公司的Grok Image模型宣传，声称它每周都在进行迭代优化。

这一次，xAI确实拿出了自己的最强作品，他们将Grok Imagine称为自己目前最强大的「视频+音频」生成模型。

不论是让静态图像动起来，还是根据一句话创造大片，甚至是对复杂电影镜头的精细加工，这款模型都能轻松完成。

在X平台上，网友使用Grok制作的视频迅速走红，覆盖了从特效制作到日常生活等多个场景。

基准测试显示，该模型不仅在性能上超越了谷歌的Veo 3.1 Fast，而且生成成本更低。

有评论者认为，这不仅是AI视频工具的一次技术进步，更是整个领域重新洗牌的机会。

还有人预测，Grok的强势表现可能会引发新一轮以视频生成技术为核心的竞赛。

探索Grok Imagine

能力全面、性价比高的多模态解决方案

Grok Imagine是由xAI开发的一款先进的视频-音频生成模型。它的最新版本Grok Imagine 1.0于2026年2月初发布。

它支持生成长达10秒的720p高清视频，并在运动流畅度、原生音质以及指令遵循能力方面有了显著提升。

相比于2025年10月发布的Imagine v0.9版本，这款模型更加注重视觉质量、多模态功能、成本和延迟的平衡，真正实现了端到端创意流程的支持。

用户可以通过文本描述或上传图像来动画化内容，并支持后续指令微调场景。

具体来说，Grok Imagine具备三大核心优势：

视频生成与指令遵循功能

Grok Imagine的视频生成能力主要体现在从零创建短视频（通常为10至15秒长，支持480p或720p分辨率）。

它可以处理多种形式的输入，例如通过文字描述场景、动作和心情来生成视频，或者上传静态图像以供AI「加工」成动态视频。

在指令遵循方面，Grok Imagine表现出色。无论指令多么复杂，它都能精准理解和执行。

零门槛的视频编辑能力

视频编辑功能更像是对现有视频进行调整。

用户可以轻松修改内容而无需专业软件的帮助，比如重新设计场景、添加或删除物体以及控制动作。

具体操作包括上传视频文件或URL，并描述希望的更改细节。

AI会根据指令生成编辑后的版本，同时保留原始视频的核心元素。

这种功能适合电影剪辑、广告调整等内容优化工作，且编辑后视频可以同步原生音频。

高效与低成本

在性能方面，不仅要追求更强的处理能力，还要加快速度并降低成本。

如果生成时间过长或费用过高，用户可能不会愿意尝试新功能。

因此，xAI团队对延迟、并发量和成本进行了优化。

结果显示，Grok Imagine不仅运行速度快，而且使用成本更低。

它强调高质量视频生成的同时保持低延迟和低成本，支持端到端的创意流程。

评测霸榜，力压谷歌

在图像转视频领域的基准测试中，Grok Imagine表现出色，在用户偏好投票和性价比方面尤为突出。

在Image-to-Video Arena排行榜上，grok-image-video-720p以1404分位居榜首（基于46.5万次投票，超过34个模型），领先于Google Veo-3.1-audio-1080p的1402分。

https://arena.ai/zh/leaderboard/image-to-video

这是一个基于用户盲测投票的平台，使用Elo评分系统。评价标准侧重于实际视频质量和保真度，而非自动化指标。

在另一个独立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337分领先，评测重点是质量、生成速度和价格。

Grok-image-video在风格一致性、主题和格式方面得分较高，其API定价约为$4.20/分钟，低于谷歌Veo 3.1 Fast等竞争对手。

https://artificialanalysis.ai/video/leaderboard/image-to-video

在第三方专业评测中，Getimg.ai认为Grok Imagine最引人注目的是能够精准执行复杂的视频指令。当提示词涉及动作、节奏或转场时，该模型通常会给出深思熟虑的响应而非随机结果。

例如，在原生音频（唇同步和自然对话）及电影级指令遵循（如平移和变焦效果）方面，Grok表现卓越。

Grok-image-video另一显著特点是解决了低延迟这一用户痛点。

在AI视频模型的实际使用场景中，单纯依靠原始质量已不够满足需求。多轮交互、长时间等待会抑制用户的尝试意愿，尤其是当每次生成都伴随着高昂的成本时。

基准测试表明，Grok Imagine在综合考量质量、延迟和成本方面表现出色。

这意味着用户可以自由地生成、调整及重新生成视频而无需担心每次输入提示带来的负担。

Lovera Digital将Grok与Google Veo 3进行了比较，发现Grok具有较高的易用性，适合短视频社交内容的快速原型制作。不过，在某些情况下，其视频质量可能会出现抖动现象。

其最佳应用场景是创意短片，评测显示在该领域有较强竞争力。

Grok Imagine在第三方评测中被视为高效且音频处理能力强的选手，尤其适用于创意和快速生成场景，但需要注意一致性和安全问题。

如有兴趣体验Grok Imagine，请访问其官方网站（grok.com/imagine）或下载相关APP进行免费试用，也可通过API集成使用（Grok Imagine API）。

参考资料：

https://x.com/elonmusk/status/2026330684630130739%20

https://x.com/teslaownersSV/status/2026322222206648339

https://arena.ai/zh/leaderboard/image-to-video

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

在46.5万次盲测中夺冠！Grok视频模型称霸Arena，谷歌迎来强劲挑战者

作者：世界网2026年2月25日科技新闻5 阅读

新智元报道

近日，AI视频领域再次迎来重大变化！

xAI的Grok图像转视频模型（grok-image-video-720p）在「Image-to-Video Arena」排行榜上以1404分的超高ELO评分占据榜首位置。

马斯克在个人社交媒体平台上为自家公司的Grok Image模型宣传，声称它每周都在进行迭代优化。

这一次，xAI确实拿出了自己的最强作品，他们将Grok Imagine称为自己目前最强大的「视频+音频」生成模型。

不论是让静态图像动起来，还是根据一句话创造大片，甚至是对复杂电影镜头的精细加工，这款模型都能轻松完成。

在X平台上，网友使用Grok制作的视频迅速走红，覆盖了从特效制作到日常生活等多个场景。

基准测试显示，该模型不仅在性能上超越了谷歌的Veo 3.1 Fast，而且生成成本更低。

有评论者认为，这不仅是AI视频工具的一次技术进步，更是整个领域重新洗牌的机会。

还有人预测，Grok的强势表现可能会引发新一轮以视频生成技术为核心的竞赛。

探索Grok Imagine

能力全面、性价比高的多模态解决方案

Grok Imagine是由xAI开发的一款先进的视频-音频生成模型。它的最新版本Grok Imagine 1.0于2026年2月初发布。

它支持生成长达10秒的720p高清视频，并在运动流畅度、原生音质以及指令遵循能力方面有了显著提升。

相比于2025年10月发布的Imagine v0.9版本，这款模型更加注重视觉质量、多模态功能、成本和延迟的平衡，真正实现了端到端创意流程的支持。

用户可以通过文本描述或上传图像来动画化内容，并支持后续指令微调场景。

具体来说，Grok Imagine具备三大核心优势：

视频生成与指令遵循功能

Grok Imagine的视频生成能力主要体现在从零创建短视频（通常为10至15秒长，支持480p或720p分辨率）。

它可以处理多种形式的输入，例如通过文字描述场景、动作和心情来生成视频，或者上传静态图像以供AI「加工」成动态视频。

在指令遵循方面，Grok Imagine表现出色。无论指令多么复杂，它都能精准理解和执行。

零门槛的视频编辑能力

视频编辑功能更像是对现有视频进行调整。

用户可以轻松修改内容而无需专业软件的帮助，比如重新设计场景、添加或删除物体以及控制动作。

具体操作包括上传视频文件或URL，并描述希望的更改细节。

AI会根据指令生成编辑后的版本，同时保留原始视频的核心元素。

这种功能适合电影剪辑、广告调整等内容优化工作，且编辑后视频可以同步原生音频。

高效与低成本

在性能方面，不仅要追求更强的处理能力，还要加快速度并降低成本。

如果生成时间过长或费用过高，用户可能不会愿意尝试新功能。

因此，xAI团队对延迟、并发量和成本进行了优化。

结果显示，Grok Imagine不仅运行速度快，而且使用成本更低。

它强调高质量视频生成的同时保持低延迟和低成本，支持端到端的创意流程。

评测霸榜，力压谷歌

在图像转视频领域的基准测试中，Grok Imagine表现出色，在用户偏好投票和性价比方面尤为突出。

在Image-to-Video Arena排行榜上，grok-image-video-720p以1404分位居榜首（基于46.5万次投票，超过34个模型），领先于Google Veo-3.1-audio-1080p的1402分。

https://arena.ai/zh/leaderboard/image-to-video

这是一个基于用户盲测投票的平台，使用Elo评分系统。评价标准侧重于实际视频质量和保真度，而非自动化指标。

在另一个独立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337分领先，评测重点是质量、生成速度和价格。

Grok-image-video在风格一致性、主题和格式方面得分较高，其API定价约为$4.20/分钟，低于谷歌Veo 3.1 Fast等竞争对手。

https://artificialanalysis.ai/video/leaderboard/image-to-video

例如，在原生音频（唇同步和自然对话）及电影级指令遵循（如平移和变焦效果）方面，Grok表现卓越。

Grok-image-video另一显著特点是解决了低延迟这一用户痛点。

基准测试表明，Grok Imagine在综合考量质量、延迟和成本方面表现出色。

这意味着用户可以自由地生成、调整及重新生成视频而无需担心每次输入提示带来的负担。

其最佳应用场景是创意短片，评测显示在该领域有较强竞争力。

Grok Imagine在第三方评测中被视为高效且音频处理能力强的选手，尤其适用于创意和快速生成场景，但需要注意一致性和安全问题。

如有兴趣体验Grok Imagine，请访问其官方网站（grok.com/imagine）或下载相关APP进行免费试用，也可通过API集成使用（Grok Imagine API）。

参考资料：

https://x.com/elonmusk/status/2026330684630130739%20

https://x.com/teslaownersSV/status/2026322222206648339

https://arena.ai/zh/leaderboard/image-to-video

“”

在46.5万次盲测中夺冠！Grok视频模型称霸Arena，谷歌迎来强劲挑战者

在46.5万次盲测中夺冠！Grok视频模型称霸Arena，谷歌迎来强劲挑战者

相关文章

相关文章