文章

SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力
SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力

它不仅能处理传统的文本数据,还能理解和生成语音数据,实现文本与语音之间的无缝对话。 能够接收语音输入,理解其内容,并以语音形式做出回应。 为大语言模型在处理和生成语音方面提供了强大的支持。 Speec…

Lumiere:一次性生成整个视频
Lumiere:一次性生成整个视频

Google Research团队开发的基于空间时间的文本到视频扩散模型。 它采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。 确保了生成视频的连…

ElevenLabs 推出一个全自动化的AI配音或视频翻译工具
ElevenLabs 推出一个全自动化的AI配音或视频翻译工具

你只需要上传视频或者粘贴视频链接,这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。 更牛P的是接克隆原视频里面的声音,来给你配音。 就算是视频里面有多个人说话也能全部克隆翻译。 下面…

HuixiangDou:利用AI解决群聊场景中冷场的问题
HuixiangDou:利用AI解决群聊场景中冷场的问题

茴香豆是一个基于大语言模型的群聊知识助手,它能够自动识别并回答群聊中的技术相关的问题,且不会被群聊中的非技术内容干扰。 可以集成到即时聊天工具(如微信、飞书)的群聊中。 主要针对技术问题,特别是与编程…

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

Pinokio 一键自动化部署开源AI项目
Pinokio 一键自动化部署开源AI项目

安装、运行和控制这些AI引擎的过程可能是一项艰巨的任务。Pinokio基本上是一个自主的虚拟计算机,通过自动化命令行进程并使用户能够单击一次即可创建和共享脚本来简化此过程。 “就像一个网络浏览器,Pi…

Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

该来的终于来了,Midjourney将面临集体诉讼
该来的终于来了,Midjourney将面临集体诉讼

Midjourney 被曝光未经许可使用了包含 16000 名艺术家的作品风格来训练其图像生成AI。 这个名单不仅包括现代和当代著名艺术家的作品,还包括了为公司如Hasbro和Nintendo工作的商…

麻省理工大学研究团队开发出一种新技术:Ddog
麻省理工大学研究团队开发出一种新技术:Ddog

通过脑电波控制波士顿动力的机器狗。 该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动,然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

Make-A-Character:一句话生成超逼真的3D数字人
Make-A-Character:一句话生成超逼真的3D数字人

你只需要通过文字描述人的脸型、五官、发型等特征,它就能在不到2分钟的时间内生成一个超逼真的3D角色。 而且你可以自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。 …

Rodin Gen-1:3D原生生成模型
Rodin Gen-1:3D原生生成模型

– Rodin Gen-1拥有1.5B参数,是目前最大的3D原生生成大模型。它的功能类似于SD(Stable Diffusion)。 – 3D-to-3D:除了传统的3D建模,…

更多