一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”
刚刚,谢赛宁&Lecun团队官宣新成果—— 正式推出以视觉为中心的多模态大模型Cambrian-1! 模型名为“寒武纪”,谢赛宁本人激动表示: 就像在寒武纪大爆发中生物发展出更好的视力一样,我...
Stable Diffusion绘世整合版 安装使用教程
Stable Diffusion绘世整合版 安装使用教程

一、概述 本文使用秋叶大佬发布的【绘世整合包】作为软件,它是目前市面上最易于使用的整合包之一,无需对网络和Python有太多的前置知识,已经为AI绘画的普及做出了巨大贡献。绘世启动器整合包于2023年…

Rodin Gen-1:3D原生生成模型
Rodin Gen-1:3D原生生成模型

– Rodin Gen-1拥有1.5B参数,是目前最大的3D原生生成大模型。它的功能类似于SD(Stable Diffusion)。 – 3D-to-3D:除了传统的3D建模,…

M2UGen:多模态音乐理解和生成模型
M2UGen:多模态音乐理解和生成模型

该模型由腾讯与新加坡国立大学开发,M2UGen能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答。 而且还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文…

Text-to-CAD :通过文本提示生成 CAD文件
Text-to-CAD :通过文本提示生成 CAD文件

只需要输入自然语言描述,它就能根据这些描述创建相应的 B-Rep CAD 文件和网格模型。 生成的模型可以导入到用户选择的任何 CAD 程序中。 Text-to-CAD 背后的基础设施利用了 Zoo …

Stable Diffusion A卡专用整合包(DirectML)资源下载
Stable Diffusion A卡专用整合包(DirectML)资源下载

基于 lshqqytiger 分支制作,功能与 v4.4 版本整合包相同 仅经过朋友一台电脑测试,不保证完全可用,若发现无法使用请及时评论区反馈 使用方法和普通整合包完全一致,首次使用打开启启动器后,…

Midjourney自建私人服务器教程
Midjourney自建私人服务器教程

Midjourney进阶教程|私人服务器的使用与创建 自建服务器 首先我们点击Discord中最左侧的绿色添加服务器按钮,如下图所示: 在弹出的创建服务器界面内,点击亲自创建按钮。 左图中选择仅供我和…

CoMoSVC:一种高效、高质量的歌声转换方法
CoMoSVC:一种高效、高质量的歌声转换方法

它可以将一个人的歌声转换成另一个人的歌声。同时能够保持了声音的自然度和真实感。 最牛P的是CoMoSVC实现了一步采样。意思是它可以在单次操作中即可完成声音的转换,大大加快了处理速度。 该项目由香港大…

ChatTTS:专门为对话场景设计的文本到语音TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型

这个语音专文本TTS模型 应该是目前对中文支持最好的了 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音…

HandRefiner:解决AI图像生成中手部畸形的问题
HandRefiner:解决AI图像生成中手部畸形的问题

目前的图像生成模型,再生成图像方面已经非常出色,但在生成人类手部的图像时却常常出现问题,比如手指数量不对或者手形怪异。 HandRefiner提出一种方法,在不改变图片其他部分的情况下,修正那些形状不…

Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

更多