一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”
刚刚,谢赛宁&Lecun团队官宣新成果—— 正式推出以视觉为中心的多模态大模型Cambrian-1! 模型名为“寒武纪”,谢赛宁本人激动表示: 就像在寒武纪大爆发中生物发展出更好的视力一样,我...
SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力
SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力

它不仅能处理传统的文本数据,还能理解和生成语音数据,实现文本与语音之间的无缝对话。 能够接收语音输入,理解其内容,并以语音形式做出回应。 为大语言模型在处理和生成语音方面提供了强大的支持。 Speec…

Lumiere:一次性生成整个视频
Lumiere:一次性生成整个视频

Google Research团队开发的基于空间时间的文本到视频扩散模型。 它采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。 确保了生成视频的连…

ElevenLabs 推出一个全自动化的AI配音或视频翻译工具
ElevenLabs 推出一个全自动化的AI配音或视频翻译工具

你只需要上传视频或者粘贴视频链接,这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。 更牛P的是接克隆原视频里面的声音,来给你配音。 就算是视频里面有多个人说话也能全部克隆翻译。 下面…

HuixiangDou:利用AI解决群聊场景中冷场的问题
HuixiangDou:利用AI解决群聊场景中冷场的问题

茴香豆是一个基于大语言模型的群聊知识助手,它能够自动识别并回答群聊中的技术相关的问题,且不会被群聊中的非技术内容干扰。 可以集成到即时聊天工具(如微信、飞书)的群聊中。 主要针对技术问题,特别是与编程…

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程
RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

Pinokio 一键自动化部署开源AI项目
Pinokio 一键自动化部署开源AI项目

安装、运行和控制这些AI引擎的过程可能是一项艰巨的任务。Pinokio基本上是一个自主的虚拟计算机,通过自动化命令行进程并使用户能够单击一次即可创建和共享脚本来简化此过程。 “就像一个网络浏览器,Pi…

Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

该来的终于来了,Midjourney将面临集体诉讼
该来的终于来了,Midjourney将面临集体诉讼

Midjourney 被曝光未经许可使用了包含 16000 名艺术家的作品风格来训练其图像生成AI。 这个名单不仅包括现代和当代著名艺术家的作品,还包括了为公司如Hasbro和Nintendo工作的商…

麻省理工大学研究团队开发出一种新技术:Ddog
麻省理工大学研究团队开发出一种新技术:Ddog

通过脑电波控制波士顿动力的机器狗。 该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动,然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

Make-A-Character:一句话生成超逼真的3D数字人
Make-A-Character:一句话生成超逼真的3D数字人

你只需要通过文字描述人的脸型、五官、发型等特征,它就能在不到2分钟的时间内生成一个超逼真的3D角色。 而且你可以自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。 …

Rodin Gen-1:3D原生生成模型
Rodin Gen-1:3D原生生成模型

– Rodin Gen-1拥有1.5B参数,是目前最大的3D原生生成大模型。它的功能类似于SD(Stable Diffusion)。 – 3D-to-3D:除了传统的3D建模,…

TrailBlazer:利用边界框控制视频对象轨迹
TrailBlazer:利用边界框控制视频对象轨迹

TrailBlazer是英伟达的一个预训练好的模型,只需输入文本即可生成视频。 同时他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为。 例如,你可以通过改变边界框的大小、方向,让视频中的…

CoMoSVC:一种高效、高质量的歌声转换方法
CoMoSVC:一种高效、高质量的歌声转换方法

它可以将一个人的歌声转换成另一个人的歌声。同时能够保持了声音的自然度和真实感。 最牛P的是CoMoSVC实现了一步采样。意思是它可以在单次操作中即可完成声音的转换,大大加快了处理速度。 该项目由香港大…

OpenAI妥协 准备向媒体购买内容训练AI
OpenAI妥协 准备向媒体购买内容训练AI

The Information 报道,两名与OpenAI 谈判的媒体高管透露,OpenAI已经向一些媒体公司开出了每年 100 万-500 万美元,以获得将新闻内容用于训练自家大语言模型的授权许可。 …

更多