Google发布新的视频模型：VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型，而本身就是个LLM，可以理解和处理多模态信息，并将它们融合到视频生成过程中。

不仅能生成视频，还能给视频加上风格化的效果，还可修复和扩展视频，甚至从视频中生成音频。

一条龙服务…

例如，VideoPoet 可以根据文本描述生成视频，或者将一张静态图片转换成动态视频。它还能理解和生成音频，甚至是编写用于视频处理的代码。

这种多模态学习能力使得 VideoPoet 在视频生成方面更加灵活和强大，能够处理更复杂和多样化的任务。

演示视频：

VideoPoet 模型默认生成的是竖屏方向的视频，这主要是为了适应短视频内容的需求。为了展示其能力，Google Research 团队制作了一部由 VideoPoet 生成的短片，内容是由许多短片段组成的。

为了制作这部短片，团队首先使用 Bard 编写了一个关于一只旅行的浣熊的短故事。Bard 不仅提供了故事的场景分解，还列出了伴随每个场景的提示。这些提示被用来指导 VideoPoet 生成与故事相匹配的视频片段。

这个过程展示了 VideoPoet 在视频内容创作方面的多样性和创造力。通过结合不同的技术和工具，如 Bard 的故事创作能力和 VideoPoet 的视频生成能力，可以创造出富有想象力和吸引力的视觉内容。

这种方法为视频制作和故事叙述提供了新的可能性，尤其适合制作短视频和社交媒体内容。

VideoPoet 的主要功能特点：

1、广泛的视频生成任务：VideoPoet 能够处理多种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频修复和扩展、以及视频到音频。

2、多模态学习能力：与主要基于扩散的视频生成模型不同，VideoPoet 作为一个大型语言模型，在多种模态上展现出卓越的学习能力，包括语言、代码和音频。

3、集成多种视频生成能力：VideoPoet 在单一的大型语言模型中集成了多种视频生成能力，而不是依赖于针对每项任务单独训练的组件。

5、任务设计：VideoPoet 能够根据不同的任务需求（如文本到视频、图像到视频等）调整其生成过程。每种任务类型都由特定的任务标记指示，以引导模型进行相应的视频生成。

6、长视频生成：通过连续预测的方式，VideoPoet 能够生成更长的视频。它通过在每一步中仅考虑视频的最后一部分（例如最后1秒），然后预测接下来的内容，从而实现视频的延伸。

7.、交互式视频编辑：允许用户交互式地编辑视频，例如改变视频中对象的动作或行为。这是通过在输入视频的基础上添加新的文本提示来实现的。

8、图像到视频的控制：能够根据文本提示将输入图像动画化，编辑其内容。

9、相机运动控制：通过在文本提示中添加特定的相机运动描述（如缩放、平移、弧形拍摄等）它能够在生成的视频中实现这些相机运动。

工作原理：

VideoPoet基于大语言模型（LLM），结合了多模态学习和自回归模型。

VideoPoet 使用大语言模型（LLM）用于处理和生成文本，但经过训练，也能理解和生成视频和音频。

结合了多模态学习，VideoPoet 能处理多种类型的输入和输出（如文本、图像、视频和音频），它可以将不同类型的信息（如文本描述和图像内容）结合起来，创造出新的视频内容。

自回归模型：它在生成视频的每一步都依赖于之前的步骤。这样，它可以逐渐构建起整个视频，确保视频内容的连贯性和一致性。

视频和音频的编码与解码：为了处理视频和音频，VideoPoet 使用特殊的编码器（如 MAGVIT V2 和 SoundStream）和解码器将这些内容转换为模型能理解的格式，然后再将生成的内容转换回可视或可听的格式。

详细介绍：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
演示：https://sites.research.google/videopoet/

Post Views: 164