近日,字节跳动推出了一款革命性的AI视频生成模型Seaweed APT2,其在实时视频流生成、互动相机控制及虚拟人类生成方面的突破引发了业界热议。这款模型以其高效的性能和创新的交互特性,被誉为“通往虚拟全息甲板(HoloDeck)的重要一步”。

Seaweed APT2:实时视频生成新标杆

Seaweed APT2是字节跳动Seed团队开发的一款8亿参数的生成式AI模型,专为实时交互视频生成设计。相较于传统视频生成模型,Seaweed APT2采用自回归对抗后训练(AAPT)技术,通过单次网络前向评估(1NFE)生成包含4帧视频的潜空间帧,显著降低了计算复杂性。

QQ20250616-145141.jpg

该模型可在单块NVIDIA H100GPU上以24帧/秒、736×416分辨率实现实时视频流生成,而在8块H100GPU上可支持1280×720分辨率的高清输出。这种高效性能使其在交互式应用场景中展现出巨大潜力。

核心功能:打造沉浸式交互体验

Seaweed APT2的创新之处在于其强大的实时交互能力,以下为其六大亮点:  

实时3D世界探索:用户可通过控制相机视角(如平移、倾斜、缩放、前后移动)在生成的3D虚拟世界中自由探索,带来沉浸式体验。  

互动虚拟人类生成:支持实时生成并控制虚拟角色的姿势与动作,适用于虚拟主播、游戏角色等场景。  


高帧率视频流:在单块H100GPU上实现24帧/秒、640×480分辨率的流畅视频生成,8块GPU可支持更高清的720p输出。  

输入回收机制:通过将每一帧重新用作输入,Seaweed APT2确保长视频的动作连贯性,避免了传统模型中常见的动作断裂问题。  

高效计算:单次前向评估生成4帧内容,结合键值缓存(KV Cache)技术,支持长时间视频生成,计算效率远超现有模型。  

无限场景模拟:通过在潜空间中引入噪声,模型能够动态生成多样化的实时场景,展现“无限可能”。  

技术突破:自回归对抗训练的革新

Seaweed APT2摒弃了传统的扩散模型多步推理模式,采用自回归对抗后训练(AAPT)技术,将预训练的双向扩散模型转化为单向自回归生成器。这种方法通过对抗目标优化视频的真实感和长期时间一致性,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。

此外,模型在**图像到视频(I2V)**场景中表现出色,用户仅需提供初始帧即可生成连贯的视频内容。这使其特别适用于交互式应用,如虚拟现实(VR)、游戏开发和实时内容创作。

应用场景:从虚拟主播到沉浸式叙事

Seaweed APT2的实时性和交互性使其应用前景极为广泛:  

虚拟主播与角色动画:通过实时姿势控制和动作生成,Seaweed APT2可为虚拟主播或游戏角色提供流畅、自然的动画效果,降低传统Live2D或3D建模的成本。  

互动影视与教育:支持多镜头叙事和动态场景生成,适用于交互式短片、沉浸式教育内容等。  

虚拟现实与游戏:通过3D相机控制和场景一致性优化,Seaweed APT2可为VR和游戏开发提供实时生成的动态世界,接近“星际迷航全息甲板”的体验。  

电商与广告:快速生成产品演示视频或虚拟人物广告,提升内容创作效率。

挑战与展望:迈向AI视频新未来

尽管Seaweed APT2在技术上取得了显著突破,但其仍面临一些挑战。例如,目前模型尚未进行人类偏好对齐和进一步微调,未来在真实感与细节表现上仍有提升空间。此外,实时生成高分辨率视频对硬件要求较高,可能限制部分用户的接入成本。  

AIbase分析认为,Seaweed APT2的发布标志着AI视频生成领域从静态创作向动态交互的重大转型。字节跳动承诺未来将发布更多技术细节甚至开源代码,这将进一步推动社区创新。 随着技术的持续迭代,Seaweed APT2有望成为虚拟内容创作的“基础设施”,为影视、游戏和元宇宙等领域带来革命性变革。

行业影响:重塑AI视频生态

相较于OpenAI的Sora或Google的Veo,Seaweed APT2以更低的参数规模和计算成本实现了媲美甚至超越的表现。这种“以小博大”的策略不仅降低了技术门槛,也为中小型团队和个人创作者提供了高性能的视频生成工具。AIbase观察到,业内对Seaweed APT2的关注度迅速升温,其在社交媒体上的演示视频已引发广泛讨论,展现了从单帧到长篇叙事的卓越生成能力。  

结语

字节跳动Seaweed APT2以其实时交互、3D世界探索和高帧率视频生成的突破性功能,为AI视频生成领域树立了新标杆。从虚拟人类到沉浸式叙事,这款模型正在重新定义内容创作的可能性。