DreamTalk代码发布,现在可以开动了

能根据音频让人物头像照片说话、唱歌同时保持嘴型和表情一致。

GitHub:https://github.com/ali-vilab/dreamtalk

HuggingFace:https://huggingface.co/damo-vilab/dreamtalk

DreamTalk:由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型让人物头像说话的框架。

能够根据音频让人物头像照片说话、唱歌并保持嘴唇的同步和模仿表情变化。

– 高质量动画:能够生成非常真实的人物脸部动作。

– 多样化表情:不仅嘴唇动作逼真,还能展现丰富的表情。

– 支持多种语言:无论是中文、英文还是其他语言,都能很好地同步。

– 说话风格预测:能够根据语音预测说话者的风格,并同步表情。

– 适用多种场景:可以用于歌曲、不同类型的肖像,甚至在嘈杂环境中也能表现良好。

工作原理:

该项目在利用扩散模型在生成动态和表情丰富的说话头部方面取得突破。

结合了以下几个关键组件来生成表情丰富的说话头部动画:

1、去噪网络:这是核心组件之一,负责生成音频驱动的面部动作。去噪网络使用扩散模型来逐步去除噪声,从而生成清晰、高质量的面部表情。这个过程涉及从带有噪声的数据中逐步恢复出清晰的面部动作。

2、风格感知的嘴唇专家:这个组件专注于提高嘴唇动作的表现力和准确性。它通过分析说话风格来引导嘴唇同步,确保生成的动画既自然又符合说话者的风格。

3、风格预测器:为了消除对表情参考视频或文本的依赖,DreamTalk引入了一个基于扩散的风格预测器。这个预测器可以直接从音频预测目标表情,无需额外的表情参考视频或文本。

4、音频和视频处理:处理音频输入,提取关键的音频特征,并将这些特征用于驱动面部动画。同时,它还能处理视频输入,以提取和模仿特定的表情和风格。

5、数据和模型训练:为了实现这些功能,DreamTalk需要大量的数据来训练其模型,包括不同表情和说话风格的面部动画数据。通过这些数据,模型学习如何准确地生成与输入音频匹配的面部动作。

微海报