Google Research团队开发的基于空间时间的文本到视频扩散模型。
它采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。
确保了生成视频的连贯性和逼真度。
支持文本到视频、图像到视频 、风格化视频生成 、视频编辑等
主要功能特点:
1、文本到视频的扩散模型: Lumiere能够根据文本提示生成视频,实现了从文本描述到视频内容的直接转换。
2、空间时间U-Net架构: 与其他需要逐步合成视频的模型不同,Lumiere能够一次性完成整个视频的制作。这种独特的架构允许Lumiere一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。
3、全局时间一致性: 由于其架构的特点,Lumiere更容易实现视频内容的全局时间一致性,确保视频的连贯性和逼真度。
4、多尺度空间时间处理: Lumiere通过在多个空间时间尺度上处理视频来学习直接生成视频,这是一种先进的方法。
5、风格化视频生成: 使用单个参考图像,Lumiere可以按照目标风格生成视频,这种能力在其他视频生成模型中较为罕见。
6、广泛的内容创作和视频编辑应用: Lumiere支持多种内容创作任务和视频编辑应用,如图像到视频、视频修补和风格化生成。
视频样式化编辑: 使用文本基础的图像编辑方法,Lumiere可以对视频进行一致性的样式编辑。
影像合成能力: 该模型能在用户指定的区域内对图像内容进行动画化处理,为静态图像增添动态效果。
视频修补功能: Lumiere提供视频修补功能,能够在视频中修改和修饰特定内容。
项目及演示:https://lumiere-video.github.io
论文:https://arxiv.org/abs/2401.12945