
新智元报道
马斯克亲自为grok-image-video-720p这款视频模型站台,该模型在46万次盲测投票中获得第一名。xAI的这一「压箱底」之作,在基准测试上超越了谷歌Veo 3.1 Fast,并且使用成本更低。
近日,AI视频领域再次迎来重大变化!
xAI的Grok图像转视频模型(grok-image-video-720p)在「Image-to-Video Arena」排行榜上以1404分的超高ELO评分占据榜首位置。
马斯克在个人社交媒体平台上为自家公司的Grok Image模型宣传,声称它每周都在进行迭代优化。

这一次,xAI确实拿出了自己的最强作品,他们将Grok Imagine称为自己目前最强大的「视频+音频」生成模型。
不论是让静态图像动起来,还是根据一句话创造大片,甚至是对复杂电影镜头的精细加工,这款模型都能轻松完成。
在X平台上,网友使用Grok制作的视频迅速走红,覆盖了从特效制作到日常生活等多个场景。
基准测试显示,该模型不仅在性能上超越了谷歌的Veo 3.1 Fast,而且生成成本更低。
有评论者认为,这不仅是AI视频工具的一次技术进步,更是整个领域重新洗牌的机会。

还有人预测,Grok的强势表现可能会引发新一轮以视频生成技术为核心的竞赛。

探索Grok Imagine
能力全面、性价比高的多模态解决方案
Grok Imagine是由xAI开发的一款先进的视频-音频生成模型。它的最新版本Grok Imagine 1.0于2026年2月初发布。
它支持生成长达10秒的720p高清视频,并在运动流畅度、原生音质以及指令遵循能力方面有了显著提升。
相比于2025年10月发布的Imagine v0.9版本,这款模型更加注重视觉质量、多模态功能、成本和延迟的平衡,真正实现了端到端创意流程的支持。
用户可以通过文本描述或上传图像来动画化内容,并支持后续指令微调场景。
具体来说,Grok Imagine具备三大核心优势:
视频生成与指令遵循功能
Grok Imagine的视频生成能力主要体现在从零创建短视频(通常为10至15秒长,支持480p或720p分辨率)。
它可以处理多种形式的输入,例如通过文字描述场景、动作和心情来生成视频,或者上传静态图像以供AI「加工」成动态视频。
在指令遵循方面,Grok Imagine表现出色。无论指令多么复杂,它都能精准理解和执行。
零门槛的视频编辑能力
视频编辑功能更像是对现有视频进行调整。
用户可以轻松修改内容而无需专业软件的帮助,比如重新设计场景、添加或删除物体以及控制动作。
具体操作包括上传视频文件或URL,并描述希望的更改细节。
AI会根据指令生成编辑后的版本,同时保留原始视频的核心元素。
这种功能适合电影剪辑、广告调整等内容优化工作,且编辑后视频可以同步原生音频。
高效与低成本
在性能方面,不仅要追求更强的处理能力,还要加快速度并降低成本。
如果生成时间过长或费用过高,用户可能不会愿意尝试新功能。
因此,xAI团队对延迟、并发量和成本进行了优化。
结果显示,Grok Imagine不仅运行速度快,而且使用成本更低。
它强调高质量视频生成的同时保持低延迟和低成本,支持端到端的创意流程。
评测霸榜,力压谷歌
在图像转视频领域的基准测试中,Grok Imagine表现出色,在用户偏好投票和性价比方面尤为突出。
在Image-to-Video Arena排行榜上,grok-image-video-720p以1404分位居榜首(基于46.5万次投票,超过34个模型),领先于Google Veo-3.1-audio-1080p的1402分。

https://arena.ai/zh/leaderboard/image-to-video
这是一个基于用户盲测投票的平台,使用Elo评分系统。评价标准侧重于实际视频质量和保真度,而非自动化指标。
在另一个独立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337分领先,评测重点是质量、生成速度和价格。
Grok-image-video在风格一致性、主题和格式方面得分较高,其API定价约为$4.20/分钟,低于谷歌Veo 3.1 Fast等竞争对手。

https://artificialanalysis.ai/video/leaderboard/image-to-video
在第三方专业评测中,Getimg.ai认为Grok Imagine最引人注目的是能够精准执行复杂的视频指令。当提示词涉及动作、节奏或转场时,该模型通常会给出深思熟虑的响应而非随机结果。
例如,在原生音频(唇同步和自然对话)及电影级指令遵循(如平移和变焦效果)方面,Grok表现卓越。
Grok-image-video另一显著特点是解决了低延迟这一用户痛点。
在AI视频模型的实际使用场景中,单纯依靠原始质量已不够满足需求。多轮交互、长时间等待会抑制用户的尝试意愿,尤其是当每次生成都伴随着高昂的成本时。
基准测试表明,Grok Imagine在综合考量质量、延迟和成本方面表现出色。
这意味着用户可以自由地生成、调整及重新生成视频而无需担心每次输入提示带来的负担。
Lovera Digital将Grok与Google Veo 3进行了比较,发现Grok具有较高的易用性,适合短视频社交内容的快速原型制作。不过,在某些情况下,其视频质量可能会出现抖动现象。
其最佳应用场景是创意短片,评测显示在该领域有较强竞争力。
Grok Imagine在第三方评测中被视为高效且音频处理能力强的选手,尤其适用于创意和快速生成场景,但需要注意一致性和安全问题。
如有兴趣体验Grok Imagine,请访问其官方网站(grok.com/imagine)或下载相关APP进行免费试用,也可通过API集成使用(Grok Imagine API)。
参考资料:
https://x.com/elonmusk/status/2026330684630130739%20
https://x.com/teslaownersSV/status/2026322222206648339
https://arena.ai/zh/leaderboard/image-to-video
