国产视频模型新秀冲入全球第二名

作者：世界网2026年2月28日AI资讯0 阅读

为了生成一个高质量的视频，SkyReels-V4采用了一种创新方法，将音频和视频在底层进行集成，以确保两者能够无缝协同工作。

SkyReels-V4不仅支持多种输入方式，还提供灵活的编辑功能。它允许用户直接导入参考图、视频帧，并且可以使用遮罩工具来修改特定部分，而不影响其他区域。此外，SkyReels-V4还可以根据用户的指令生成高质量的音频和音乐。

在技术层面，SkyReels-V4利用双流MMDiT架构，实现了音视频联合生成与编辑。模型内部通过双向交叉注意力机制，使得视觉内容能够实时调整以匹配音频节奏，同时确保声音在正确的时序上同步到画面中。

为了优化计算效率和减少延迟，SkyReels-V4采用了逐级爬坡的训练策略，并结合视频稀疏注意力（VSA）机制来大幅压缩长序列注意力计算量。这使得生成的画面能够在1080p分辨率、32帧速率和15秒时长的情况下保持流畅。

从长远来看，团队计划进一步提升SkyReels-V4的能力，包括处理更长时间的视频内容以及实现更高分辨率（如4K甚至8K）。同时，还将致力于优化多语言环境下的音视频协同生成技术，并通过持续降低推理成本来扩大其应用范围和场景。

昆仑天工团队表示，“执拗”地坚持自研多模态原生对齐，在从文生图到跨模态参考驱动的演进过程中，逐步实现结构级音视频同步。他们通过产品矩阵将AI能力落地于实际创作中，并利用在游戏出海领域积累的经验加速海外市场的扩展。

在未来发展中，昆仑天工将继续保持高速迭代步伐，在长序列、高分辨率等技术难题上不断探索与突破，巩固其作为多模态视频生成领域重要竞争者的地位。

「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。

文本、图像、视频片段、掩码、音频参考全部可混合输入，主打一个全模态参考、一体化生成。

好好好，一个月前才刚开源SkyReels-V3，这次V4直接带着全球TOP2的成绩单登场。

只能说这公司节奏够快，成绩够硬。

不过还是那句老话，光说不练假把式，咱这不得召唤SkyReels-V4给大家表演一个（doge）。

锵锵锵锵上场，先给大家来个自我介绍：

没记住不要紧，四个技能show这就给观众姥爷献上：

先来点有意思的，用图像的主体+视频的动作和音乐生成新视频。

把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗，并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫，确保动作保持一致。

SkyReels-V4看一眼两张参考图：把狗和猫的毛色、身形全都扒下来，但摒弃了两张图的背景。

再看一眼原视频（来自昆汀电影《低俗小说》片段）：噢～俩人在跳舞，女生在左边，男生在右边，他们原来是这么跳的。

然后直接开干，人物主体无缝切换了，狗替女生，猫替男生；但舞台、观众、音乐、动作可都没变。

就连这生成的视频中，狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上，大概在10s左右，这波动作和音乐可是真·卡点了～

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

这个案例的背后，体现的是SkyReels-V4对多模态参考的精准控制。

首先，咱可以看出来，模型支持文本、图像、视频片段等多种输入组合。

而且实际上掩码和音频它也能参考，参考完了就能实现：

基于参考图像的风格迁移与主体保留：就拿上面参考的狗和猫图像来说，从毛色、体态到身形大小的细节，都被精准保留并迁移到了视频人物身上；
音频驱动的动作生成：参考视频的背景音乐，模型能让两者的舞步踩准节拍，甚至连动作变化都精准卡点；
多参考融合创作：这个替换案例的整个指令本身就是典型的多模态参考，有多个图像的主体形象、视频的舞蹈动作和音乐节拍，好几种素材都无痛融在了一起。

放完组合技之后，再来个更高级的。

SkyReels-V4还支持对已有内容进行专业级修复——

在不破坏整体结构的前提下，替换视频主体、去除水印、抹掉字幕等，几乎都是手拿把掐。

区域智能修复：能精准替换视频中的主体、修改属性（如服装颜色、物体形状）、更换背景；
元素智能移除：能自动识别并去除水印、字幕、Logo，保持背景内容自然连贯；
参考引导修复：可基于参考图像的风格一致性修复，确保编辑前后视觉统一。

就拿去字幕这事儿来说吧，真到了要用的时候那可真是急得人团团转，往往社交媒体全扒一遍也没有真正好用的。

但交给SkyReels-V4，它还真行。

你瞅，原视频是一个10s左右、含大量英文字幕的小片段：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

但魔法这么一施，字幕这就没！了！整个画面立马变得干干净净。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

该说不说，SkyReels-V4真是一位后期小能手，它能在保留大部分原视频的情况下，实现局部精准改动。

当然了，既然专业后期的活都能干，那各种日常编辑岂不是轻轻松松。

一次生成不满意，SkyReels-V4也支持随心改、自由改。

插一嘴，虽然都是改，但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。

用一个例子来区分就是，假设原视频为一个女生在草地上走路，“专业级视频修复”追求的是极致的真——消除路人、改衣服颜色等，改完之后，她还是走在那片草地上，整个视频结构不变；

而“全维度视频编辑”追求的是创造的自由——比如让草地瞬间变为赛博朋克都市，甚至让镜头从定点拍摄变为电影级的推拉摇移，整个视频想要表达的意境内容可能都变了。

针对后者当中的局部编辑，先给SkyReels-V4上个开胃小菜，给视频凭空增加素材。

一张帽子图+一段女团舞视频，要求模型给c位dancer戴上帽子。

将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。

注意看细节，帽子的颜色和logo需要记住，下面要考。

5s练习室视频也多看几眼：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

然后，SkyReels-V4交卷了。拿着我的放大镜仔细瞅，没想到还真没挑出毛病。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

帽子和原图一致，而且也确实按要求戴在了c位女生头上，整个视频几乎就是她戴上帽子重新又跳了一遍。

光增加元素怎么够，再来个反向操作：直接删除视频中的人物或元素。

原视频是几个小伙伴一起深夜探险：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

结果镜头一转，“消失的他们”原地上演，惊悚感扑面而来：

移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子，以及那位身穿深紫色上衣、留着金色长卷发的女子。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

敲黑板，SkyReels-V4不仅支持上述局部编辑，而且还能一键替换视频风格（全局编辑）、改变运镜（相机运动控制）等等。

来来来，还没完，接下来是演技大赏。

先挑三个演员（从左到右依次为扮演者A、B、C）：

再给个剧本（简化版）：

A眼神中透露着玩味和审视，用从容且略带挑衅的语气说：“这么多年来，这十亿明明在身边却花不了，是不是很可惜？”

B原本正闭目沉思，听到话语后缓缓睁眼看向A；

C突然出现在画面中，他愤怒地弯下腰，发出一声重重地拍击桌面的撞击声；

镜头再次转向B，他神色紧张地抬起手指向前方，语气急促而担忧地低吼道：“志杰，你说什么呢！”

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

短剧拍完咱一看，这情绪表现力够专业啊，你就说演技和台词功底夯不夯吧。

除了看演技，咱也往深处扒一扒细节。

首先，能演得这么好，肯定离不开AI优秀的指令遵循能力。

除此之外，最让人意外的就是这音频生成质量了，台词不糊嘴，还充分表现出了玩味和审视的人物情绪，敲击桌子的声音真实到能听出是木质的桌面，仔细听还有环境回音。

这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力，支持情感语音、歌词同步演唱这些高阶玩法。

整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上，确实做到了不输专业音频生成工具的水准。

表演看完了，想必你也对SkyReels-V4的实力有了近距离感受。

我们看下来，SkyReels-V4的核心优势几乎可以用两个词来概括：全面、全能。

全面体现在多模态上，包括但不限于图像、音频、文本，它基本都能消化吸收，给出的结果也都符合预期。

全能则体现在这种一体化创作能力上，从灵感激发、脚本设计，到音视频生成、后期剪辑、音效配乐，甚至多语言配音和字幕同步，整个流程几乎都能在同一个平台上完成，全部All in one。

而基于“多模态输入+全功能集成”，无论是搞创意还是回到实际应用，整个应用想象空间一下子就被打开了。

从以往实践来看，今后用SkyReels-V4快速生成产品宣传视频、进军短剧制作、视效大片生成，甚至制作教学课件或多语言科普内容，都变得可行且门槛更低了。

那么问题来了，SkyReels-V4到底怎么做到的？

答案，全都藏在论文里了。

老实说，虽然当下AI视频生成看起来玩法很多，但要真正做到好用实属不易。

痛点呢绕不开三个：

画面没声音：后期配乐对口型耗时费力还容易翻车；
输入方式单一且编辑不灵活：大多模型只认文字，想塞参考图、丢参考视频？不支持；想给视频改个背景、给人物换件衣服？只能再重来一遍；
画质和速度难兼得：要高清就得等，要流畅就只能忍受马赛克画质。

而SkyReels-V4就是冲着这三刀下去的。

它采用双流MMDiT架构，把音、视频从底层就焊在了一起。

视频和音频两个分支并行跑，共享同一个多模态大语言模型（MLLM）编码器。

画面和声音在模型内部就能完成联合生成，不再依赖后期拼凑的模式。

团队还在每个Transformer模块里都加了双向交叉注意力——

视频看音频调整节奏，音频看视频匹配细节。

再配合RoPE（旋转位置编码）频率缩放，哪怕视频与音频的Token数量级完全不同，也能在微秒级的时间轴上精准对齐。

嘴唇动几下、脚步声踩在哪一帧，都能严丝合缝，画面一出，声音就同步到位。

一个月前的上一代V3还要手动提供音频，现在V4的音频分支已经可以直接生成对白、环境音和配乐，并支持音频参考引导。

（这迭代速度真得手动给个大拇指）

输入和编辑也不再是死穴。

它搞了套通道拼接+时序拼接的双维玩法，把文字、图片、视频、遮罩、音频参考全都吃进去。

通道维度上，把带噪视频、条件帧、遮罩叠在一起，不管文生视频、图生视频、视频延长还是局部编辑，本质上都变成“带掩码的修复类”任务。

想改哪，打个遮罩就改哪，不影响别处。

时序维度上，参考图或视频帧直接拼进生成序列前端，模型像翻参考册一样学里面的风格、动作、人物特征。

加上多模态大语言模型的指令跟随能力，你甚至可以说：

“让参考图A里这个女孩，在参考视频B的海边，跳参考视频C的舞，配参考D音频的轻音乐”。

SkyReels-V4是真能听懂，也真能一次生成出来。

画质和速度极限二选一的问题，它也给出了工程解法。

采用先快速出低清全序列，再单独拎几个高清关键帧，然后用专门的超分和插值模型补细节、优化过渡的策略。

训练上走的是“逐级爬坡”的路线，从低分辨率到高分辨率，从单模态到音视频联合，一步步抬高难度。

音频分支单独训练后再和视频分支合练，最后两阶段精修收尾。

每一步踩实了，生成的画面才稳、动作才顺、音视频才真的长在一起。

此外，再配合视频稀疏注意力（VSA）机制，把长序列注意力计算压缩到原来的约1/3。

计算量降下来，效率提上去，最终画面稳在1080p、32帧、15秒的电影级水准。

从文生视频到音视频同步生成，再到多模态输入、全流程编辑，SkyReels-V4这一步，算是把AI视频生成从单点工具推到了全流程的一体化创作。

当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃；

跨语言创作、复杂场景的音视频协同要优化；另外还会继续降推理成本，让这套工具落到更多行业、更多场景里。

单看昆仑天工这“月更”速度，估计咱不久后就又能用上了～

说实话，“多模态”三个字，现在谁都在喊，但真正从底层架构去做原生统一的玩家并不算多。

而在这个赛道中，昆仑天工还是比较“执拗”的一个，从天工系列大模型开始，就坚持自研多模态原生对齐。

统一编码、统一对齐逻辑、统一训练范式……这些听着抽象，但一旦走上这条路，基本就是烧时间、烧算力、烧耐心。

当然了，现在看上去好处也非常直接——

当SkyReels做到V4时，音视频的协同是结构级的，而不是外挂式的。

从产品节奏上看，它的路径并不跳跃，一步一个脚印。

早期从文生图、图生图打底，夯实视觉生成与指令对齐能力；
随后推出SkyReels系列，把能力推向时间维度，做文生视频、图生视频；
再到自研音乐模型Mureka系列，补齐音频生成链路，让声音正式进入多模态主干框架。
上个月的SkyReels-V3阶段强化参考驱动，支持图像、视频、音频多模态条件输入，验证跨模态对齐稳定性；
到了V4，就把音视频同步生成、编辑与inpainting统一进同一架构，音频从外挂能力变成了原生分支。

这一步步看似功能扩张，实则是从token对齐到架构共享、再到训练范式统一的持续收束，逐步逼近原生多模态一体化。

另外值得留意的是，昆仑天工不只是闷头做模型，还在用产品矩阵把多模态能力真正落地到创作场景里。

有了自研技术打底之后，他们会快速推出面向垂直场景的产品和平台，再配合昆仑万维在游戏出海这块积累的全球化运营经验，这些AI能力在海外的起量速度相当快。

产品本身是各司其职，但到了其旗下DramaWave和FreeReels这种短剧平台，就变成了多模态能力的综合试验场。

创作者剪片子，视频从SkyReels来，配乐从Mureka调，字幕和脚本靠文本模型生成，更不用说现在还能音画同步生成……一个作品里就能把多模态能力全用上。

用户用完了，数据回来了，模型再迭代，这套正向循环一旦跑起来，比单纯堆参数要扎实得多。

当然，这种打法也不轻松。

重资产自研加上高频迭代，本身就是高风险模式，尤其是当分辨率、时长继续往上卷时，算力成本会再度成为压力点。

昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远，还要看后续表现。

但至少从现阶段来说，在多模态视频生成这条线上，他们已经成了存在感很强的竞争者。

你看昆仑天工目前的更新频率和能力跃升就能发现，他们这股“死磕”的劲头，还在继续……

SkyReels-V4技术报告：
https://arxiv.org/abs/2602.21818

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

国产视频模型新秀冲入全球第二名

作者：世界网2026年2月28日AI资讯0 阅读

为了生成一个高质量的视频，SkyReels-V4采用了一种创新方法，将音频和视频在底层进行集成，以确保两者能够无缝协同工作。

「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。

文本、图像、视频片段、掩码、音频参考全部可混合输入，主打一个全模态参考、一体化生成。

好好好，一个月前才刚开源SkyReels-V3，这次V4直接带着全球TOP2的成绩单登场。

只能说这公司节奏够快，成绩够硬。

不过还是那句老话，光说不练假把式，咱这不得召唤SkyReels-V4给大家表演一个（doge）。

锵锵锵锵上场，先给大家来个自我介绍：

没记住不要紧，四个技能show这就给观众姥爷献上：

先来点有意思的，用图像的主体+视频的动作和音乐生成新视频。

把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗，并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫，确保动作保持一致。

SkyReels-V4看一眼两张参考图：把狗和猫的毛色、身形全都扒下来，但摒弃了两张图的背景。

再看一眼原视频（来自昆汀电影《低俗小说》片段）：噢～俩人在跳舞，女生在左边，男生在右边，他们原来是这么跳的。

然后直接开干，人物主体无缝切换了，狗替女生，猫替男生；但舞台、观众、音乐、动作可都没变。

就连这生成的视频中，狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上，大概在10s左右，这波动作和音乐可是真·卡点了～

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

这个案例的背后，体现的是SkyReels-V4对多模态参考的精准控制。

首先，咱可以看出来，模型支持文本、图像、视频片段等多种输入组合。

而且实际上掩码和音频它也能参考，参考完了就能实现：

基于参考图像的风格迁移与主体保留：就拿上面参考的狗和猫图像来说，从毛色、体态到身形大小的细节，都被精准保留并迁移到了视频人物身上；
音频驱动的动作生成：参考视频的背景音乐，模型能让两者的舞步踩准节拍，甚至连动作变化都精准卡点；
多参考融合创作：这个替换案例的整个指令本身就是典型的多模态参考，有多个图像的主体形象、视频的舞蹈动作和音乐节拍，好几种素材都无痛融在了一起。

放完组合技之后，再来个更高级的。

SkyReels-V4还支持对已有内容进行专业级修复——

在不破坏整体结构的前提下，替换视频主体、去除水印、抹掉字幕等，几乎都是手拿把掐。

区域智能修复：能精准替换视频中的主体、修改属性（如服装颜色、物体形状）、更换背景；
元素智能移除：能自动识别并去除水印、字幕、Logo，保持背景内容自然连贯；
参考引导修复：可基于参考图像的风格一致性修复，确保编辑前后视觉统一。

就拿去字幕这事儿来说吧，真到了要用的时候那可真是急得人团团转，往往社交媒体全扒一遍也没有真正好用的。

但交给SkyReels-V4，它还真行。

你瞅，原视频是一个10s左右、含大量英文字幕的小片段：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

但魔法这么一施，字幕这就没！了！整个画面立马变得干干净净。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

该说不说，SkyReels-V4真是一位后期小能手，它能在保留大部分原视频的情况下，实现局部精准改动。

当然了，既然专业后期的活都能干，那各种日常编辑岂不是轻轻松松。

一次生成不满意，SkyReels-V4也支持随心改、自由改。

插一嘴，虽然都是改，但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。

针对后者当中的局部编辑，先给SkyReels-V4上个开胃小菜，给视频凭空增加素材。

一张帽子图+一段女团舞视频，要求模型给c位dancer戴上帽子。

将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。

注意看细节，帽子的颜色和logo需要记住，下面要考。

5s练习室视频也多看几眼：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

然后，SkyReels-V4交卷了。拿着我的放大镜仔细瞅，没想到还真没挑出毛病。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

帽子和原图一致，而且也确实按要求戴在了c位女生头上，整个视频几乎就是她戴上帽子重新又跳了一遍。

光增加元素怎么够，再来个反向操作：直接删除视频中的人物或元素。

原视频是几个小伙伴一起深夜探险：

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

结果镜头一转，“消失的他们”原地上演，惊悚感扑面而来：

移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子，以及那位身穿深紫色上衣、留着金色长卷发的女子。

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

敲黑板，SkyReels-V4不仅支持上述局部编辑，而且还能一键替换视频风格（全局编辑）、改变运镜（相机运动控制）等等。

来来来，还没完，接下来是演技大赏。

先挑三个演员（从左到右依次为扮演者A、B、C）：

再给个剧本（简化版）：

A眼神中透露着玩味和审视，用从容且略带挑衅的语气说：“这么多年来，这十亿明明在身边却花不了，是不是很可惜？”

B原本正闭目沉思，听到话语后缓缓睁眼看向A；

C突然出现在画面中，他愤怒地弯下腰，发出一声重重地拍击桌面的撞击声；

镜头再次转向B，他神色紧张地抬起手指向前方，语气急促而担忧地低吼道：“志杰，你说什么呢！”

视频地址：https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ

短剧拍完咱一看，这情绪表现力够专业啊，你就说演技和台词功底夯不夯吧。

除了看演技，咱也往深处扒一扒细节。

首先，能演得这么好，肯定离不开AI优秀的指令遵循能力。

这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力，支持情感语音、歌词同步演唱这些高阶玩法。

整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上，确实做到了不输专业音频生成工具的水准。

表演看完了，想必你也对SkyReels-V4的实力有了近距离感受。

我们看下来，SkyReels-V4的核心优势几乎可以用两个词来概括：全面、全能。

全面体现在多模态上，包括但不限于图像、音频、文本，它基本都能消化吸收，给出的结果也都符合预期。

而基于“多模态输入+全功能集成”，无论是搞创意还是回到实际应用，整个应用想象空间一下子就被打开了。

那么问题来了，SkyReels-V4到底怎么做到的？

答案，全都藏在论文里了。

老实说，虽然当下AI视频生成看起来玩法很多，但要真正做到好用实属不易。

痛点呢绕不开三个：

画面没声音：后期配乐对口型耗时费力还容易翻车；
输入方式单一且编辑不灵活：大多模型只认文字，想塞参考图、丢参考视频？不支持；想给视频改个背景、给人物换件衣服？只能再重来一遍；
画质和速度难兼得：要高清就得等，要流畅就只能忍受马赛克画质。

而SkyReels-V4就是冲着这三刀下去的。

它采用双流MMDiT架构，把音、视频从底层就焊在了一起。

视频和音频两个分支并行跑，共享同一个多模态大语言模型（MLLM）编码器。

画面和声音在模型内部就能完成联合生成，不再依赖后期拼凑的模式。

团队还在每个Transformer模块里都加了双向交叉注意力——

视频看音频调整节奏，音频看视频匹配细节。

再配合RoPE（旋转位置编码）频率缩放，哪怕视频与音频的Token数量级完全不同，也能在微秒级的时间轴上精准对齐。

嘴唇动几下、脚步声踩在哪一帧，都能严丝合缝，画面一出，声音就同步到位。

一个月前的上一代V3还要手动提供音频，现在V4的音频分支已经可以直接生成对白、环境音和配乐，并支持音频参考引导。

（这迭代速度真得手动给个大拇指）

输入和编辑也不再是死穴。

它搞了套通道拼接+时序拼接的双维玩法，把文字、图片、视频、遮罩、音频参考全都吃进去。

通道维度上，把带噪视频、条件帧、遮罩叠在一起，不管文生视频、图生视频、视频延长还是局部编辑，本质上都变成“带掩码的修复类”任务。

想改哪，打个遮罩就改哪，不影响别处。

时序维度上，参考图或视频帧直接拼进生成序列前端，模型像翻参考册一样学里面的风格、动作、人物特征。

加上多模态大语言模型的指令跟随能力，你甚至可以说：

“让参考图A里这个女孩，在参考视频B的海边，跳参考视频C的舞，配参考D音频的轻音乐”。

SkyReels-V4是真能听懂，也真能一次生成出来。

画质和速度极限二选一的问题，它也给出了工程解法。

采用先快速出低清全序列，再单独拎几个高清关键帧，然后用专门的超分和插值模型补细节、优化过渡的策略。

训练上走的是“逐级爬坡”的路线，从低分辨率到高分辨率，从单模态到音视频联合，一步步抬高难度。

音频分支单独训练后再和视频分支合练，最后两阶段精修收尾。

每一步踩实了，生成的画面才稳、动作才顺、音视频才真的长在一起。

此外，再配合视频稀疏注意力（VSA）机制，把长序列注意力计算压缩到原来的约1/3。

计算量降下来，效率提上去，最终画面稳在1080p、32帧、15秒的电影级水准。

从文生视频到音视频同步生成，再到多模态输入、全流程编辑，SkyReels-V4这一步，算是把AI视频生成从单点工具推到了全流程的一体化创作。

当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃；

跨语言创作、复杂场景的音视频协同要优化；另外还会继续降推理成本，让这套工具落到更多行业、更多场景里。

单看昆仑天工这“月更”速度，估计咱不久后就又能用上了～

说实话，“多模态”三个字，现在谁都在喊，但真正从底层架构去做原生统一的玩家并不算多。

而在这个赛道中，昆仑天工还是比较“执拗”的一个，从天工系列大模型开始，就坚持自研多模态原生对齐。

统一编码、统一对齐逻辑、统一训练范式……这些听着抽象，但一旦走上这条路，基本就是烧时间、烧算力、烧耐心。

当然了，现在看上去好处也非常直接——

当SkyReels做到V4时，音视频的协同是结构级的，而不是外挂式的。

从产品节奏上看，它的路径并不跳跃，一步一个脚印。

早期从文生图、图生图打底，夯实视觉生成与指令对齐能力；
随后推出SkyReels系列，把能力推向时间维度，做文生视频、图生视频；
再到自研音乐模型Mureka系列，补齐音频生成链路，让声音正式进入多模态主干框架。
上个月的SkyReels-V3阶段强化参考驱动，支持图像、视频、音频多模态条件输入，验证跨模态对齐稳定性；
到了V4，就把音视频同步生成、编辑与inpainting统一进同一架构，音频从外挂能力变成了原生分支。

这一步步看似功能扩张，实则是从token对齐到架构共享、再到训练范式统一的持续收束，逐步逼近原生多模态一体化。

另外值得留意的是，昆仑天工不只是闷头做模型，还在用产品矩阵把多模态能力真正落地到创作场景里。

产品本身是各司其职，但到了其旗下DramaWave和FreeReels这种短剧平台，就变成了多模态能力的综合试验场。

用户用完了，数据回来了，模型再迭代，这套正向循环一旦跑起来，比单纯堆参数要扎实得多。

当然，这种打法也不轻松。

重资产自研加上高频迭代，本身就是高风险模式，尤其是当分辨率、时长继续往上卷时，算力成本会再度成为压力点。

昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远，还要看后续表现。

但至少从现阶段来说，在多模态视频生成这条线上，他们已经成了存在感很强的竞争者。

你看昆仑天工目前的更新频率和能力跃升就能发现，他们这股“死磕”的劲头，还在继续……

SkyReels-V4技术报告：
https://arxiv.org/abs/2602.21818

“”

国产视频模型新秀冲入全球第二名

国产视频模型新秀冲入全球第二名

相关文章

相关文章