字节跳动试图打破Seedance 2.0的“不可能三角”

Seedance 2.0夺取Sora宝座后，AI视频生成赛道进入了狂热与焦虑并存的阶段。

哪怕功能强大如Seedance 2.0，仍然无法打破这个领域的“不可能三角”：

模型规模、生成时长和推理速度总是难以同时实现。

想要Seedance 2.0一样的电影级画质，那就必须得有字节一样的大厂设计出的百亿参数多模态模型，代价则是最多15秒的视频时长、昂贵的单次生成费用和十几分钟的等待时间。

想要快速出片，那就必须向参数量妥协，用1B左右参数的小模型，代价则是画面模糊、细节丢失，超过10秒就开始崩溃。

如果无法实现高质量、实时的长视频，那AI视频生成就永远走不到电影那一步。

不过，推出了Seedance 2.0这个旷世神作的字节跳动，野心远不止于此。

由北京大学和字节跳动等机构联合推出的Helios大模型，正在试图用利刃劈开这个“不可能三角”。

Helios是首个能在单张英伟达H100显卡上，以19.53帧/秒（FPS）的速度运行的14B参数大模型。

这个参数量，虽然谈不上轻量级，但和各家AI大厂的旗舰版大语言模型比起来，它也只能算是个“迷你版”模型。

“身材”虽然略显瘦弱，但它的画质却能匹敌当前最强一档的模型，还能用接近“实时”的速度，连贯生成长达数分钟的视频。

噩梦般的“长程漂移”

使用过即梦、可灵、Sora的用户应该普遍产生过一个疑问：为什么视频生成最多也就10秒或者15秒？哪怕用户再有钱，也无法打破这个限制。

实际上，这不仅是算力上的问题，就算强制增加生成时间上限，生成视频的效果恐怕也不会尽如人意：

AI生成的视频往往在前几秒的画面无比惊艳，但随着时间推移，画面质量就会快速下降，比如主角无法保持面部特征、肢体结构开始突变、背景逐渐扭曲、动作不符合物理逻辑等等。

这就是“漂移”现象。

AI生成视频的过程，其实和大语言模型问答的过程类似。大语言模型需要根据记忆和上下文作出下一步的回答，多模态模型也需要“根据历史，画出未来”。

在FPS固定的情况下，视频越来越长，帧数也越来越多，这就意味着AI需要从每一帧中记住的信息呈几何倍数暴增。

而在这个过程中，哪怕前面生成的画面只出现了一丝极其微小的瑕疵，也会在后续的生成中不断被累积和放大，最终导致全面崩溃。

为了解决这个问题，早期学术界想出的最直观的方法是在训练AI时，让它一次性生成长片段以避免瑕疵扩大，但这种强化学习的方法不仅容易产生欠拟合和过拟合的问题，算力消耗成本更是令人无法承担，百亿参数的大模型根本用不起，10亿参数已经是极限。

因此，Helios的研究团队意识到，还得从视频生成的过程中找问题。

他们首先注意到，长视频发生崩溃往往伴随着画面亮度和色彩的整体失控，但视频的开头几秒往往不会发生这个问题。

于是，“首帧锚点（First Frame Anchor）”机制就此诞生。

研究团队将视频的第一帧锚定为整个生成过程的“定海神针”，AI在后续漫长的生成过程都必须紧紧“盯住”第一帧，锁定全局的外观分布。

无论提示词中要求后续画面如何发展，第一帧确立的整体色调和人物身份都可以随时将AI拉回正确的轨道，杜绝“画风突变”。

但即便如此，瑕疵的出现仍然是不可避免的，因此必须让AI学会如何处理这种“不完美”。

Helios在训练阶段采用了一个特殊的手段：帧感知破坏（Frame Aware Corrupt）。

简单来说，就是随机向AI依赖的历史画面加入各种瑕疵，让AI通过强化学习降低对历史画面的绝对依赖，并学会根据常识修复各种问题。

经过这种方式的训练，Helios对误差的容忍度极高，视频再长也不容易崩溃。

最后一个要解决的问题是位置偏移和重复运动。

AI在生成视频过程中的位置编码是绝对的，当生成的视频长度超过了AI在训练时见过的最大长度，注意力机制紊乱导致画面会闪回到最初的位置。

Helios将位置编码改为相对参考，不再关注“这是第X帧”，而是关注“这是过去几帧的延续”，从根源上斩断了动作的周期性重复。

算力的“魔术”

画质崩坏的问题在软件层面上得到了解决，但更难的挑战出现在硬件层面上：

140亿参数说少不少，如何让它在仅有一张显卡的情况下实现19.5 FPS的实时运行？

AI视频生成的本质和大语言模型并无区别，普遍采用的Diffusion Transformer（DiT）架构同样使用自注意力机制来捕捉视频的空间细节（单帧内容）和时间连贯性（帧间运动）。

但由于向量空间中图像的维度比文本更高，视频中每一帧的内容所需要的计算量远比大语言模型的一次问答要多。视频延长短短几秒，计算量和占用的显存就要指数级增加，必须使用GPU集群来分摊压力。

用算力换画面质量和视频时长，Sora的关闭和Seedance 2.0发布后的“降智”已经给出明确回答：在商业视角行不通。

Helios果断选择了其他路线，这套名为“深度压缩流（Deep Compression Flow）”的底层重构方案，从token缩减、步数蒸馏到显存管理，几乎榨干了GPU的所有潜能，像变魔术一样上演了“见证奇迹的时刻”。

1.token视角：时空维度极限压缩

首先要解决的是视频上下文过长导致爆显存的问题，Helios给出的解法是对时空维度进行非对称压缩。

前面刚刚说过，AI生成视频是“根据历史，画出未来”。因此，要准备多久的“历史资料”是一个关键的问题。

对于人类来说，记忆类似于数据结构中的“栈”，后进先出：我们对前一秒发生的事情记忆犹新，对十分钟前发生的事则略显模糊。

Helios根据仿生学完全借鉴了这种多期记忆分块的机制，将AI需要回顾的历史画面分成三种：短期、中期和长期。

对于几帧前刚刚过去的画面，Helios保留最高清的细节；对于多帧之前比较久远的画面，Helios对其进行高强度的压缩，只保留最粗略的全局布局。

这个简单的思路，让Helios在回顾非常久远的历史画面时，消耗的token仍然能保持在一个极低的恒定水平，历史信息的显存占用直接压缩到了原先的八分之一，彻底打消了单卡运行“爆显存”的无解难题。

在生成画面时，Helios也没有直接在最高分辨率下开始生成，而是采用了自底向上的开发策略。

这类似于画家绘画的过程，先在低分辨率下快速勾勒出整体的颜色和布局轮廓，再逐层放大，精雕细琢边缘和纹理等细节。

早期的去噪决定宏观结构，后期的去噪用于优化细节，利用这种任务拆解的机制，能够再将计算量降至一半以下。

2.步数视角：对抗性分层蒸馏

AI视频生成之所以慢，是因为传统的扩散模型需要经过50步左右的反复去噪过程。

过去的视频生成模型在学习如何一步到位时，为了防止忘记历史画面而“断片”，必须通过“模拟展开推理”来训练。

模型生成一段视频后，不仅要靠奖励模型评判好与坏，还要续写几段模拟未来的长视频。

毫无疑问，这样做的结果就是耗时极长和显存爆炸。

但Helios采用的是“纯教师强制（Pure Teacher Forcing）”模式，让模型无需模拟未来的视频，而是直接把海量的真实连续视频切片作为唯一的参考标准喂给模型。

模型每次训练，只专注于在给定的真实历史画面下，“完美地画出下一小段”，去掉了复杂的模拟过程使得训练效率指数级跃升。

在去噪过程中，还存在类似大语言模型一样的蒸馏机制。

但知识蒸馏总是存在一个致命缺陷：学生的上限不会比老师高，但下限可能比老师低。一旦缺点被放大，生成视频的质量自然也会有所下降。

为此，Helios引入了基于真实视频的对抗性后训练，如果学生经过去噪过程产出的结果只是对老师的模仿，缺乏真实的物理细节，就打回重做。

这种严格的训练方式，奇迹般地将原来需要50步才能实现的画面保真度直接压缩到了短短3步之内。

3.显存视角：重构调度机制

GPU显存是固定的，但模型中却有多个子模型要串行计算。

为此，研究团队设计了一套高级的调度机制，利用专属的数据通道，只在GPU中保存正在计算的子模型，一旦结束计算处于闲置状态，瞬间将参数转移到CPU中待命。

对于PyTorch等现代AI训练框架，前向计算时中间变量会被保存到显存中以便反向传播时使用。

研究团队注意到这个环节后，直接打破了框架底层的计算逻辑，只要梯度计算完成，立即手动触发程序并在毫秒级别内释放激活状态，硬是节省出了一倍以上的空闲显存。

除此之外，官方的深度学习框架还有很多隐藏着的数据传输损耗。

研究团队为了进一步加速视频生成，直接绕开了PyTorch，使用底层编译器语言Triton来编写核心代码，甚至在传统的注意力机制计算过程中，直接在内存占用复杂度中剔除了一个乘数维度。

正是这一系列从算法底层到显存调度的极限压榨，让14B参数的大模型在H100上跑出了奇迹。

Helios：重构AI视频的商业版图

一项底层技术的突破，往往可能引发产业链的地震，而Helios恰好诞生于发明了Seedance 2.0的字节跳动。

这个说大不大、说小不小的模型，却具备“高质量+实时+单卡+长时间”这个前所未有的特性组合，并精准击穿了AI视频商业化的壁垒。

Sora的关闭、Seedance 2.0发布不久后就被发现“降智”的事实，说明阻碍AI视频大规模在ToC端落地的最大障碍就是高昂的价格。

近一年来，市面上效果尚可的视频生成模型，生成一次10秒左右的视频都需要消耗极高的算力成本。

采用订阅制的情况下，现有的调用量只会让AI公司亏本；即使开放API给B端企业，不仅技术层面上存在差距，想要靠模型产出商业化成品所需的费用也会让开发者望而却步。

但Helios将14B模型的运行门槛直接拉低到了单张H100，且吞吐量极高。

尽管消费级显卡还是无能为力，但这仍然意味着云厂商和SaaS平台的单路并发成本将被大幅削减，而且API的商业模式可能迎来质变。

现有的按生成次数付费的积分制，未来可能转变为和大语言模型一样的按token计费。

只有当生成成本足够低时，多模态模型才能从“奢侈品”变为像大语言模型一样的基础设施。

Helios带来的另一个颠覆性的商业想象，是AI视频生成即将摘下“离线渲染”的标签，走向实时互动的引擎。

无论是Seedance 2.0还是Sora，本质上仍然是高级的离线渲染器：用户输入提示词、模型开始生成内容、等待一段时间、收获一段“开盲盒”的视频。

这种非实时的交互，注定只能作为内容制作的素材生产工具。哪怕效果再差，钱也得照样付。

但Helios已经展现出实时互动引擎的雏形。19.5 FPS的速度和上下文的连贯记忆，简直是为交互式生成量身打造。

如果未来用户可以在视频生成的播放过程中动态修改指令，将会直接打开世界模型、沉浸式体验甚至具身智能等商业空间。

Helios的出现，给整个AI视频生成赛道的玩家都指明了新的方向：

与其通过削减参数换取生成速度，不如在记忆管理、蒸馏机制和显存调度上多做文章。

技术的护城河，就建立在对底层架构的极限重构之上。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8rpXPBLneSb

字节跳动试图打破Seedance 2.0的“不可能三角”

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享1 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

字节跳动试图打破Seedance 2.0的“不可能三角”

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享1 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索