视频生成大模型的竞争,正在从谁生成得更好看,转向谁能实时互动。

过去一年多,主流视频大模型的迭代方向大体相似:提升分辨率、拉长生成时长、优化运动一致性、增强指令可控性。用户输入提示词,模型完成推理后输出一段长度相对固定的视频,这几乎已经成为行业默认流程。

但实时交互场景正在提出新的要求。

视频通话、实时陪伴、虚拟偶像、互动直播,都无法只依赖离线生成一段成片。用户会不断提问、打断、引导角色做出新的反应;角色也需要在对话过程中持续理解语音、调整动作、维持形象,并把新的反馈实时呈现在画面里。

换句话说,视频模型不再只需要生成得好,还要随时听得懂、马上有反应、长时间不掉线。

正是在这个节点上,生数科技把 Vidu S1 带到了实时交互这条新路线上。

在今天举行的 2026 全球数字经济大会上,生数科技创始人朱军正式对外发布全新实时交互模型 Vidu S1。该模型由朱军教授的 00 后博士生张金涛担任负责人,带领团队完成 Vidu S1 全链路研发。Vidu S1是生数科技通用世界模型整体布局在实时交互式生成方面的一个重要体现。

Vidu S1 面向的是一类全新的使用场景:让视频模型从离线成片,走向可对话、可响应、可持续在线的实时交互。它的核心能力包括语音实时控制视频生成内容、无限长实时生成、540P (960×540) + 25FPS (最高可支持 42FPS) 实时交互,以及自定义初始图像与音色。难得的是,这套实时交互能力在消费级显卡上就能跑起来。

这种革新改写了数字人的创建流程。

过去,数字人的制作更像一个小型项目:需要准备素材、完成建模或训练,再做口型、动作和形象适配。制作周期从几分钟到一天不等。

Vidu S1 采用更纯粹的生成式路线,省去了离线建模和角色训练环节。用户只需上传一张首帧图,模型就能快速理解角色的身份、外观和风格,并在交互过程中实时生成该角色的表情、口型、动作与姿态;再结合自定义音色,数字人也能保持形象与音色的统一。

从「上传素材等待训练」到「上传首帧直接交互」,个性化数字人的使用门槛大幅降低。

我们也提前体验了 Vidu S1 的实际效果。比如,我们上传了一张最近爆火的负鼠表情包,只需简单设置,一个会说天津话的负鼠角色就出现在了屏幕里。它不只能接话、顺着话题往下聊,还能听懂动作指令:你让它比赞、摸鼻子、眨眼睛,它都能在画面里实时做出对应动作。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8uS0pMbkRf9