谷歌的旗舰级视频生成模型 Veo3 现已通过 Gemini API 向开发者开放,提供文本转视频功能,并支持同步音频生成。此举标志着 AI 视频制作迈入新阶段,但也伴随着更高的成本。
Veo3 是谷歌首款能通过单个文本提示生成高分辨率视频并同步生成对话、音乐和音效的模型。目前,Gemini API 仅限于文本转视频功能,但谷歌表示,Gemini 应用中已上线的图像转视频支持也即将推出。
对于希望将高级视频生成功能集成到自身应用或构建可投入生产原型的开发者而言,此次 API 集成提供了强大助力。Google AI Studio 为开发者提供了 SDK 模板和入门应用,以帮助他们快速上手。访问该 API 需要一个已启用计费功能的活跃 Google Cloud 项目。谷歌透露,Veo3已在 Gemini 应用、Flow 和 Vertex AI 中被使用了数百万次。
然而,Veo3 的价格使其成为 AI 视频生成领域中相对昂贵的选项之一。通过 Gemini API 访问 Veo3仅在 Google Cloud 付费套餐中可用。以720p、24fps 视频(含16:9格式音频)为例,定价为 每秒0.75美元,比不含音频的 Veo2贵25美分。这意味着,一段八秒的视频需要6美元,而一段五分钟的视频则高达225美元。考虑到通常需要多次尝试才能达到理想效果,实际成本可能会迅速增加。例如,如果需要十倍的素材量才能制作出五分钟的可用视频,总成本可能达到2,250美元。尽管如此,谷歌可能认为在特定用例中,这仍比传统的视频制作更具成本效益。谷歌还宣布了“Veo3Fast”模式,该模式速度更快、价格更低,但目前尚未在 API 中提供。
目前,Veo3的应用主要集中在专业领域。例如,Cartwheel 利用 Veo3将2D 视频转换为逼真的3D 角色动画,并将其生成的动作映射到客户项目的装配模型上。游戏工作室 Volley 也使用 Veo3为其角色扮演游戏《Wit's End》制作过场动画,从而让开发者能够快速尝试新的故事创意和视觉效果。这些案例表明,谷歌目前更侧重于专业级应用,尽管不排除有其他公司在幕后使用 Veo3但尚未公开。