文章

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

ChatTTS:专门为对话场景设计的文本到语音TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型

这个语音专文本TTS模型 应该是目前对中文支持最好的了 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音…

Midjourney自建私人服务器教程

Midjourney进阶教程|私人服务器的使用与创建 自建服务器 首先我们点击Discord中最左侧的绿色添加服务器按钮,如下图所示: 在弹出的创建服务器界面内,点击亲自创建按钮。 左图中选择仅供我和…

CoMoSVC:一种高效、高质量的歌声转换方法
CoMoSVC:一种高效、高质量的歌声转换方法

它可以将一个人的歌声转换成另一个人的歌声。同时能够保持了声音的自然度和真实感。 最牛P的是CoMoSVC实现了一步采样。意思是它可以在单次操作中即可完成声音的转换,大大加快了处理速度。 该项目由香港大…

Mistral发布7B模型0.3版本

抱抱脸上线了 Mistral-7B-v0.3 的基础版和指令微调版。 相比于Mistral-7B-v0.2,新版本更新如下: – 词汇量从 32000 扩展到 32768 – …

YOLO v10:毫秒级实时的端到端目标检测开源模型
YOLO v10:毫秒级实时的端到端目标检测开源模型

由清华大学多媒体智能组(THU-MIG)开发。 从输入图像到输出检测结果的整个过程全部由模型直接完成,消除了中间的人工干预或额外处理步骤。 YOLOv10 能够在极短的时间内处理输入的图像或视频帧,通…

AI视频搜索引擎,你可以像问问题一样搜索视频
AI视频搜索引擎,你可以像问问题一样搜索视频

比如,你想知道“如何做蛋糕”,只需在这个网站上输入这个问题,它就会找到相关的视频来帮你解答。 更牛P的是,你还可以跟视频进行对话,就像跟一个人聊天一样,还能帮你总结视频内容。 最牛P的是他把这个项目开…

更多