(北京30日综合电)中国清华大学联合北京生数科技有限公司发布文字描述生成影片的人工智慧模型“Vidu”,这款由中国自行研发的产品以美国人工智慧研究单位Open AI今年2月发表的“Sora”为竞争标竿,目前Vidu能够一键生成长达16秒、画质1080P的高清影片内容。
央视新闻报道,清华大学教授、生数科技首席科学家朱军在中关村未来人工智能先锋论坛上进行现场展示,Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,能够模拟真实物理世界,具有长时长、高一致性、高动态性的特性。
ADVERTISEMENT
朱军说:“Vidu与Sora一样,都抓住了视频生成的精髓——对现实世界物理规律的模拟,并且从文本到视频的转换是直接且连续的。”
Vidu团队在今年1月已实现4秒影片的生成,过去两个月,团队的原创技术路线已经走通,产品在以更快的速度迭代,“Vidu还能理解中国元素并生成视频,例如熊猫和龙。”
虽然与Sora对外发布的可一键生成1分钟视频时长有差距,可是德国汉堡大学多模态智能系统技术研究所所长张建伟评论:“在Sora之后,这支团队可以在短时间内打造出这么明亮的产品,做出了可以说跟国际上平行的一些结果,非常令人鼓舞。”
央视新闻引述张建伟的观察,“更令人鼓舞的是自己研发的算法,这些人才的积累,这个是最珍贵的财富而不是这个产品本身。”(联合报)
ADVERTISEMENT
热门新闻
百格视频
ADVERTISEMENT