字节跳动近日推出了一款名为Phantom的创新视频生成工具,该工具基于参考主体进行视频生成,在主体一致性方面表现出色,引发业界广泛关注。
字节跳动推出Phantom视频生成工具:主体一致性表现卓越


字节跳动近日推出了一款名为Phantom的创新视频生成工具,该工具基于参考主体进行视频生成,在主体一致性方面表现出色,引发业界广泛关注。
中科大与字节跳动联合推出端到端长视频生成模型,能直接生成分钟级、480p分辨率、24fps的高质量视频,支持多镜头切换。核心创新是底层算法MoGA,这是一种全新注意力机制,专攻长视频生成难题,标志着国产视频生成技术实现关键突破。
近日,生数科技正式宣布 Vidu Q2参考生视频大模型 API 全面开放接入,这一举措标志着 AI 视频生成技术从“可用”迈向“精工”的关键跃迁。Vidu Q2在保持超高一致性方面展现出了独特价值,尤其在广告、商品展示等领域,不仅能够精准还原产品细节,还能为 AI 视频注入情感表现力,从而提升品牌好感与用户转化。 Vidu Q2的发布为互动娱乐、动漫、广告电商行业带来了全新的武器。其首创的“创意特效引擎”为这些行业提供了引爆节日流量、制胜全球市场的新手段。Vidu Q2不仅在视频生成的真实感上树立了新标杆,还通过细微表情生成技术为数字角色注入真实情感,让 AI 视频迎来全新
字节跳动AI助手Cici在海外市场表现亮眼,墨西哥谷歌商店下载量居首,英国苹果商店进入前十。该应用与国内豆包同期推出,采用双品牌出海策略,开发者身份虽未公开标注,但字节跳动已向《福布斯》确认。
近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。多模态技术,尤其是视频生成领域,正处于快速发展的阶段。生数科技的融资负责人表示,预计在未来三年内,多模态生成将改变全球数字内容的生产方式,逐
近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包