文章

ChatTTS:专门为对话场景设计的文本到语音TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型

这个语音专文本TTS模型 应该是目前对中文支持最好的了 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音…

YOLO v10:毫秒级实时的端到端目标检测开源模型
YOLO v10:毫秒级实时的端到端目标检测开源模型

由清华大学多媒体智能组(THU-MIG)开发。 从输入图像到输出检测结果的整个过程全部由模型直接完成,消除了中间的人工干预或额外处理步骤。 YOLOv10 能够在极短的时间内处理输入的图像或视频帧,通…

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

CoMoSVC:一种高效、高质量的歌声转换方法
CoMoSVC:一种高效、高质量的歌声转换方法

它可以将一个人的歌声转换成另一个人的歌声。同时能够保持了声音的自然度和真实感。 最牛P的是CoMoSVC实现了一步采样。意思是它可以在单次操作中即可完成声音的转换,大大加快了处理速度。 该项目由香港大…

Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

Stable Diffusion法线贴图预处理器详解
Stable Diffusion法线贴图预处理器详解

法线贴图这个东西,只要搞渲染算法的肯定会遇到。简单来讲,法线就是指模型表面的凹凸感,而凹凸感的产生是因为模型表面像素的光照条件不一样产生的。比如下面这个图,边缘光照压暗了,所以给人有一种凹凸3D感觉。

更多