为了生成一个高质量的视频,SkyReels-V4采用了一种创新方法,将音频和视频在底层进行集成,以确保两者能够无缝协同工作。
SkyReels-V4不仅支持多种输入方式,还提供灵活的编辑功能。它允许用户直接导入参考图、视频帧,并且可以使用遮罩工具来修改特定部分,而不影响其他区域。此外,SkyReels-V4还可以根据用户的指令生成高质量的音频和音乐。
在技术层面,SkyReels-V4利用双流MMDiT架构,实现了音视频联合生成与编辑。模型内部通过双向交叉注意力机制,使得视觉内容能够实时调整以匹配音频节奏,同时确保声音在正确的时序上同步到画面中。
为了优化计算效率和减少延迟,SkyReels-V4采用了逐级爬坡的训练策略,并结合视频稀疏注意力(VSA)机制来大幅压缩长序列注意力计算量。这使得生成的画面能够在1080p分辨率、32帧速率和15秒时长的情况下保持流畅。
从长远来看,团队计划进一步提升SkyReels-V4的能力,包括处理更长时间的视频内容以及实现更高分辨率(如4K甚至8K)。同时,还将致力于优化多语言环境下的音视频协同生成技术,并通过持续降低推理成本来扩大其应用范围和场景。
昆仑天工团队表示,“执拗”地坚持自研多模态原生对齐,在从文生图到跨模态参考驱动的演进过程中,逐步实现结构级音视频同步。他们通过产品矩阵将AI能力落地于实际创作中,并利用在游戏出海领域积累的经验加速海外市场的扩展。
在未来发展中,昆仑天工将继续保持高速迭代步伐,在长序列、高分辨率等技术难题上不断探索与突破,巩固其作为多模态视频生成领域重要竞争者的地位。
「图像A的主体」+「视频B的动作」+「音频C的背景音」= 一条完整视频。
文本、图像、视频片段、掩码、音频参考全部可混合输入,主打一个全模态参考、一体化生成。
好好好,一个月前才刚开源SkyReels-V3,这次V4直接带着全球TOP2的成绩单登场。
只能说这公司节奏够快,成绩够硬。
不过还是那句老话,光说不练假把式,咱这不得召唤SkyReels-V4给大家表演一个(doge)。
锵锵锵锵上场,先给大家来个自我介绍:
没记住不要紧,四个技能show这就给观众姥爷献上:
先来点有意思的,用图像的主体+视频的动作和音乐生成新视频。
把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗, 并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫,确保动作保持一致。
SkyReels-V4看一眼两张参考图:把狗和猫的毛色、身形全都扒下来,但摒弃了两张图的背景。
再看一眼原视频(来自昆汀电影《低俗小说》片段):噢~俩人在跳舞,女生在左边,男生在右边,他们原来是这么跳的。
然后直接开干,人物主体无缝切换了,狗替女生,猫替男生;但舞台、观众、音乐、动作可都没变。
就连这生成的视频中,狗狗弯腰的动作变化时机都和原版女生动作变化的时机对得上,大概在10s左右,这波动作和音乐可是真·卡点了~
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
这个案例的背后,体现的是SkyReels-V4对多模态参考的精准控制。
首先,咱可以看出来,模型支持文本、图像、视频片段等多种输入组合。
而且实际上掩码和音频它也能参考,参考完了就能实现:
- 基于参考图像的风格迁移与主体保留:就拿上面参考的狗和猫图像来说,从毛色、体态到身形大小的细节,都被精准保留并迁移到了视频人物身上;
- 音频驱动的动作生成:参考视频的背景音乐,模型能让两者的舞步踩准节拍,甚至连动作变化都精准卡点;
- 多参考融合创作:这个替换案例的整个指令本身就是典型的多模态参考,有多个图像的主体形象、视频的舞蹈动作和音乐节拍,好几种素材都无痛融在了一起。
放完组合技之后,再来个更高级的。
SkyReels-V4还支持对已有内容进行专业级修复——
在不破坏整体结构的前提下,替换视频主体、去除水印、抹掉字幕等,几乎都是手拿把掐。
- 区域智能修复:能精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景;
- 元素智能移除:能自动识别并去除水印、字幕、Logo,保持背景内容自然连贯;
- 参考引导修复:可基于参考图像的风格一致性修复,确保编辑前后视觉统一。
就拿去字幕这事儿来说吧,真到了要用的时候那可真是急得人团团转,往往社交媒体全扒一遍也没有真正好用的。
但交给SkyReels-V4,它还真行。
你瞅,原视频是一个10s左右、含大量英文字幕的小片段:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
但魔法这么一施,字幕这就没!了!整个画面立马变得干干净净。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
该说不说,SkyReels-V4真是一位后期小能手,它能在保留大部分原视频的情况下,实现局部精准改动。
当然了,既然专业后期的活都能干,那各种日常编辑岂不是轻轻松松。
一次生成不满意,SkyReels-V4也支持随心改、自由改。
插一嘴,虽然都是改,但“专业级视频修复”和“全维度视频编辑”侧重的点还不一样。
用一个例子来区分就是,假设原视频为一个女生在草地上走路,“专业级视频修复”追求的是极致的真——消除路人、改衣服颜色等,改完之后,她还是走在那片草地上,整个视频结构不变;
而“全维度视频编辑”追求的是创造的自由——比如让草地瞬间变为赛博朋克都市,甚至让镜头从定点拍摄变为电影级的推拉摇移,整个视频想要表达的意境内容可能都变了。
针对后者当中的局部编辑,先给SkyReels-V4上个开胃小菜,给视频凭空增加素材。
一张帽子图+一段女团舞视频,要求模型给c位dancer戴上帽子。
将@image_1中的蓝色罗纹针织无檐帽添加到@video_1中中央舞者的头上。
注意看细节,帽子的颜色和logo需要记住,下面要考。
5s练习室视频也多看几眼:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
然后,SkyReels-V4交卷了。拿着我的放大镜仔细瞅,没想到还真没挑出毛病。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
帽子和原图一致,而且也确实按要求戴在了c位女生头上,整个视频几乎就是她戴上帽子重新又跳了一遍。
光增加元素怎么够,再来个反向操作:直接删除视频中的人物或元素。
原视频是几个小伙伴一起深夜探险:
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
结果镜头一转,“消失的他们”原地上演,惊悚感扑面而来:
移除@video_1中最右边那位手持手电筒的浅金色短发年轻男子,以及那位身穿深紫色上衣、留着金色长卷发的女子。
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
敲黑板,SkyReels-V4不仅支持上述局部编辑,而且还能一键替换视频风格(全局编辑)、改变运镜(相机运动控制)等等。
来来来,还没完,接下来是演技大赏。
先挑三个演员(从左到右依次为扮演者A、B、C):
再给个剧本(简化版):
A眼神中透露着玩味和审视,用从容且略带挑衅的语气说:“这么多年来,这十亿明明在身边却花不了,是不是很可惜?”
B原本正闭目沉思,听到话语后缓缓睁眼看向A;
C突然出现在画面中,他愤怒地弯下腰,发出一声重重地拍击桌面的撞击声;
镜头再次转向B,他神色紧张地抬起手指向前方,语气急促而担忧地低吼道 :“志杰,你说什么呢!”
视频地址:https://mp.weixin.qq.com/s/5AXAnxerlKDNfBujX9VHhQ
短剧拍完咱一看,这情绪表现力够专业啊,你就说演技和台词功底夯不夯吧。
除了看演技,咱也往深处扒一扒细节。
首先,能演得这么好,肯定离不开AI优秀的指令遵循能力。
除此之外,最让人意外的就是这音频生成质量了,台词不糊嘴,还充分表现出了玩味和审视的人物情绪,敲击桌子的声音真实到能听出是木质的桌面,仔细听还有环境回音。
这是因为模型内置了多语言语音合成、音效生成、背景音乐适配等一系列能力,支持情感语音、歌词同步演唱这些高阶玩法。
整体音频质量在信号清晰度、音色真实度、动态范围这些硬指标上,确实做到了不输专业音频生成工具的水准。
表演看完了,想必你也对SkyReels-V4的实力有了近距离感受。
我们看下来,SkyReels-V4的核心优势几乎可以用两个词来概括:全面、全能。
全面体现在多模态上,包括但不限于图像、音频、文本,它基本都能消化吸收,给出的结果也都符合预期。
全能则体现在这种一体化创作能力上,从灵感激发、脚本设计,到音视频生成、后期剪辑、音效配乐,甚至多语言配音和字幕同步,整个流程几乎都能在同一个平台上完成,全部All in one。
而基于“多模态输入+全功能集成”,无论是搞创意还是回到实际应用,整个应用想象空间一下子就被打开了。
从以往实践来看,今后用SkyReels-V4快速生成产品宣传视频、进军短剧制作、视效大片生成,甚至制作教学课件或多语言科普内容,都变得可行且门槛更低了。
那么问题来了,SkyReels-V4到底怎么做到的?
答案,全都藏在论文里了。
老实说,虽然当下AI视频生成看起来玩法很多,但要真正做到好用实属不易。
痛点呢绕不开三个:
- 画面没声音:后期配乐对口型耗时费力还容易翻车;
- 输入方式单一且编辑不灵活:大多模型只认文字,想塞参考图、丢参考视频?不支持;想给视频改个背景、给人物换件衣服?只能再重来一遍;
- 画质和速度难兼得:要高清就得等,要流畅就只能忍受马赛克画质。
而SkyReels-V4就是冲着这三刀下去的。
它采用双流MMDiT架构,把音、视频从底层就焊在了一起。
视频和音频两个分支并行跑,共享同一个多模态大语言模型(MLLM)编码器。
画面和声音在模型内部就能完成联合生成,不再依赖后期拼凑的模式。
团队还在每个Transformer模块里都加了双向交叉注意力——
视频看音频调整节奏,音频看视频匹配细节。
再配合RoPE(旋转位置编码)频率缩放,哪怕视频与音频的Token数量级完全不同,也能在微秒级的时间轴上精准对齐。
嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声音就同步到位。
一个月前的上一代V3还要手动提供音频,现在V4的音频分支已经可以直接生成对白、环境音和配乐,并支持音频参考引导。
(这迭代速度真得手动给个大拇指)
输入和编辑也不再是死穴。
它搞了套通道拼接+时序拼接的双维玩法,把文字、图片、视频、遮罩、音频参考全都吃进去。
通道维度上,把带噪视频、条件帧、遮罩叠在一起,不管文生视频、图生视频、视频延长还是局部编辑,本质上都变成“带掩码的修复类”任务。
想改哪,打个遮罩就改哪,不影响别处。
时序维度上,参考图或视频帧直接拼进生成序列前端,模型像翻参考册一样学里面的风格、动作、人物特征。
加上多模态大语言模型的指令跟随能力,你甚至可以说:
“让参考图A里这个女孩,在参考视频B的海边,跳参考视频C的舞,配参考D音频的轻音乐”。
SkyReels-V4是真能听懂,也真能一次生成出来。
画质和速度极限二选一的问题,它也给出了工程解法。
采用先快速出低清全序列,再单独拎几个高清关键帧,然后用专门的超分和插值模型补细节、优化过渡的策略。
训练上走的是“逐级爬坡”的路线,从低分辨率到高分辨率,从单模态到音视频联合,一步步抬高难度。
音频分支单独训练后再和视频分支合练,最后两阶段精修收尾。
每一步踩实了,生成的画面才稳、动作才顺、音视频才真的长在一起。
此外,再配合视频稀疏注意力(VSA)机制,把长序列注意力计算压缩到原来的约1/3。
计算量降下来,效率提上去,最终画面稳在1080p、32帧、15秒的电影级水准。
从文生视频到音视频同步生成,再到多模态输入、全流程编辑,SkyReels-V4这一步,算是把AI视频生成从单点工具推到了全流程的一体化创作。
当然这事还没完。团队表示后面还有更长视频、更高分辨率、4K甚至8K的难题要啃;
跨语言创作、复杂场景的音视频协同要优化;另外还会继续降推理成本,让这套工具落到更多行业、更多场景里。
单看昆仑天工这“月更”速度,估计咱不久后就又能用上了~
说实话,“多模态”三个字,现在谁都在喊,但真正从底层架构去做原生统一的玩家并不算多。
而在这个赛道中,昆仑天工还是比较“执拗”的一个,从天工系列大模型开始,就坚持自研多模态原生对齐。
统一编码、统一对齐逻辑、统一训练范式……这些听着抽象,但一旦走上这条路,基本就是烧时间、烧算力、烧耐心。
当然了,现在看上去好处也非常直接——
当SkyReels做到V4时,音视频的协同是结构级的,而不是外挂式的。
从产品节奏上看,它的路径并不跳跃,一步一个脚印。
- 早期从文生图、图生图打底,夯实视觉生成与指令对齐能力;
- 随后推出SkyReels系列,把能力推向时间维度,做文生视频、图生视频;
- 再到自研音乐模型Mureka系列,补齐音频生成链路,让声音正式进入多模态主干框架。
- 上个月的SkyReels-V3阶段强化参考驱动,支持图像、视频、音频多模态条件输入,验证跨模态对齐稳定性;
- 到了V4,就把音视频同步生成、编辑与inpainting统一进同一架构,音频从外挂能力变成了原生分支。
这一步步看似功能扩张,实则是从token对齐到架构共享、再到训练范式统一的持续收束,逐步逼近原生多模态一体化。
另外值得留意的是,昆仑天工不只是闷头做模型,还在用产品矩阵把多模态能力真正落地到创作场景里。
有了自研技术打底之后,他们会快速推出面向垂直场景的产品和平台,再配合昆仑万维在游戏出海这块积累的全球化运营经验,这些AI能力在海外的起量速度相当快。
产品本身是各司其职,但到了其旗下DramaWave和FreeReels这种短剧平台,就变成了多模态能力的综合试验场。
创作者剪片子,视频从SkyReels来,配乐从Mureka调,字幕和脚本靠文本模型生成,更不用说现在还能音画同步生成……一个作品里就能把多模态能力全用上。
用户用完了,数据回来了,模型再迭代,这套正向循环一旦跑起来,比单纯堆参数要扎实得多。
当然,这种打法也不轻松。
重资产自研加上高频迭代,本身就是高风险模式,尤其是当分辨率、时长继续往上卷时,算力成本会再度成为压力点。
昆仑天工未来在更长序列、更高分辨率、跨语言音视频协同上能走多远,还要看后续表现。
但至少从现阶段来说,在多模态视频生成这条线上,他们已经成了存在感很强的竞争者。
你看昆仑天工目前的更新频率和能力跃升就能发现,他们这股“死磕”的劲头,还在继续……
SkyReels-V4技术报告:
https://arxiv.org/abs/2602.21818
