Google发布新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。

不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从视频中生成音频。

一条龙服务…

例如,VideoPoet 可以根据文本描述生成视频,或者将一张静态图片转换成动态视频。它还能理解和生成音频,甚至是编写用于视频处理的代码。

这种多模态学习能力使得 VideoPoet 在视频生成方面更加灵活和强大,能够处理更复杂和多样化的任务。

演示视频:

VideoPoet 模型默认生成的是竖屏方向的视频,这主要是为了适应短视频内容的需求。为了展示其能力,Google Research 团队制作了一部由 VideoPoet 生成的短片,内容是由许多短片段组成的。

为了制作这部短片,团队首先使用 Bard 编写了一个关于一只旅行的浣熊的短故事。Bard 不仅提供了故事的场景分解,还列出了伴随每个场景的提示。这些提示被用来指导 VideoPoet 生成与故事相匹配的视频片段。

这个过程展示了 VideoPoet 在视频内容创作方面的多样性和创造力。通过结合不同的技术和工具,如 Bard 的故事创作能力和 VideoPoet 的视频生成能力,可以创造出富有想象力和吸引力的视觉内容。

这种方法为视频制作和故事叙述提供了新的可能性,尤其适合制作短视频和社交媒体内容。

VideoPoet 的主要功能特点:

1、广泛的视频生成任务:VideoPoet 能够处理多种视频生成任务,包括文本到视频、图像到视频、视频风格化、视频修复和扩展、以及视频到音频。

2、多模态学习能力:与主要基于扩散的视频生成模型不同,VideoPoet 作为一个大型语言模型,在多种模态上展现出卓越的学习能力,包括语言、代码和音频。

3、集成多种视频生成能力:VideoPoet 在单一的大型语言模型中集成了多种视频生成能力,而不是依赖于针对每项任务单独训练的组件。

5、任务设计:VideoPoet 能够根据不同的任务需求(如文本到视频、图像到视频等)调整其生成过程。每种任务类型都由特定的任务标记指示,以引导模型进行相应的视频生成。

6、长视频生成:通过连续预测的方式,VideoPoet 能够生成更长的视频。它通过在每一步中仅考虑视频的最后一部分(例如最后1秒),然后预测接下来的内容,从而实现视频的延伸。

7.、交互式视频编辑:允许用户交互式地编辑视频,例如改变视频中对象的动作或行为。这是通过在输入视频的基础上添加新的文本提示来实现的。

8、图像到视频的控制:能够根据文本提示将输入图像动画化,编辑其内容。

9、相机运动控制:通过在文本提示中添加特定的相机运动描述(如缩放、平移、弧形拍摄等)它能够在生成的视频中实现这些相机运动。

工作原理:

VideoPoet基于大语言模型(LLM),结合了多模态学习和自回归模型。

VideoPoet 使用大语言模型(LLM)用于处理和生成文本,但经过训练,也能理解和生成视频和音频。

结合了多模态学习,VideoPoet 能处理多种类型的输入和输出(如文本、图像、视频和音频),它可以将不同类型的信息(如文本描述和图像内容)结合起来,创造出新的视频内容。

自回归模型:它在生成视频的每一步都依赖于之前的步骤。这样,它可以逐渐构建起整个视频,确保视频内容的连贯性和一致性。

视频和音频的编码与解码:为了处理视频和音频,VideoPoet 使用特殊的编码器(如 MAGVIT V2 和 SoundStream)和解码器将这些内容转换为模型能理解的格式,然后再将生成的内容转换回可视或可听的格式。

详细介绍:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
演示:https://sites.research.google/videopoet/

微海报