跳动百科

腾讯混元发布并开源图生视频模型 上线对口型与动作驱动等玩法

萧豪燕   来源:网易

腾讯近日发布了其AI生成模型“混元”,并开放了源代码,其中包含了一个能够将图像转化为视频的模型。该模型可以实现多种创新功能,包括根据文本生成视频,以及对视频中的人物进行口型同步和动作驱动等。

例如,用户可以通过输入一段文字描述,模型就能生成相应的视频画面;或者上传一张人物图片,模型能模拟出人物说话时的口型变化,甚至根据文本内容让这个人物做出相应的动作。这不仅为视频制作提供了新的可能性,也大大降低了视频创作的门槛,使得非专业人员也能轻松制作出高质量的视频内容。此外,这一技术还可以应用于虚拟角色的创建,增强游戏和娱乐体验。

该模型的开源,意味着开发者们可以在此基础上进一步开发,创造出更多有趣的应用场景,推动人工智能技术的发展。