一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”
刚刚,谢赛宁&Lecun团队官宣新成果—— 正式推出以视觉为中心的多模态大模型Cambrian-1! 模型名为“寒武纪”,谢赛宁本人激动表示: 就像在寒武纪大爆发中生物发展出更好的视力一样,我...
VCoder:大语言模型的眼睛
VCoder:大语言模型的眼睛

VCoder的一个视觉编码器,能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。 它可以帮助模型显示图片中不同物体的轮廓或深度图(显示物体距离相机的远近)。…

Pile:一款开源的界面非常整洁美观的AI日记软件
Pile:一款开源的界面非常整洁美观的AI日记软件

可以帮助你撰写和保存日记条目,记录你的思考和经历,当备忘录也可以! 内置了OpenAI 的API功能,可以自己写提示词让AI帮你扩展你的想法和日记。 还可以使用AI来搜索日记内容或对整个日记提出问题。…

M2UGen:多模态音乐理解和生成模型
M2UGen:多模态音乐理解和生成模型

该模型由腾讯与新加坡国立大学开发,M2UGen能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答。 而且还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文…

OpenVoice:多功能即时语音克隆
OpenVoice:多功能即时语音克隆

由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。 OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参…

SSR-Encoder:从图像中提取关键特征来生成新的图像
SSR-Encoder:从图像中提取关键特征来生成新的图像

SSR-Encoder能够提取图像中的多种特征,包括人物、视觉元素、风格、情感和细节等 然后它会利用提取的这些特征再结合文字提示,重新生成新的图像。 比如你看到一张照片,觉得它某一部分很好,就可以指定…

HandRefiner:解决AI图像生成中手部畸形的问题
HandRefiner:解决AI图像生成中手部畸形的问题

目前的图像生成模型,再生成图像方面已经非常出色,但在生成人类手部的图像时却常常出现问题,比如手指数量不对或者手形怪异。 HandRefiner提出一种方法,在不改变图片其他部分的情况下,修正那些形状不…

GPT-Pilot:AI开发者伴侣
GPT-Pilot:AI开发者伴侣

GPT Pilot 一个真正的AI程序员,它可以从零开始构建整个应用程序,它能自己编写代码、配置开发环境、管理开发任务、调试代码,你还可以随时和它聊天提问帮助你解决开发难题。 你只需要在一旁监督开发过…

AI视频搜索引擎,你可以像问问题一样搜索视频
AI视频搜索引擎,你可以像问问题一样搜索视频

比如,你想知道“如何做蛋糕”,只需在这个网站上输入这个问题,它就会找到相关的视频来帮你解答。 更牛P的是,你还可以跟视频进行对话,就像跟一个人聊天一样,还能帮你总结视频内容。 最牛P的是他把这个项目开…

AppAgent:让AI模仿人类在手机上操作APP
AppAgent:让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。 它可以在社交媒体上发帖、帮你撰写和发送邮件 、使用地图、在线购物,甚至进行复杂的图像编辑… AppA…

Midjourney V6版本上线
Midjourney V6版本上线

一些反馈发现(单簧管总结): – 提示词长度现在是350+ – 您可以指定颜色和其他细节 – 你可以在画布上放置你想要的东西,如添加文本 – 您可以提示…

阿里巴巴 DreaMoving 放出在线体验地址
阿里巴巴 DreaMoving 放出在线体验地址

DreaMoving能仅靠脸部照片和文字提示就能生成在任何场景下跳舞的视频… 测了下跳舞动作还可以,但是和背景融合度不行,人物舞蹈和背景完全是隔离的,不能完全融合! 体验地址:https:…

Text-to-CAD :通过文本提示生成 CAD文件
Text-to-CAD :通过文本提示生成 CAD文件

只需要输入自然语言描述,它就能根据这些描述创建相应的 B-Rep CAD 文件和网格模型。 生成的模型可以导入到用户选择的任何 CAD 程序中。 Text-to-CAD 背后的基础设施利用了 Zoo …

Google发布新的视频模型:VideoPoet
Google发布新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从…

Gaussian-SLAM:能够从视频流中重建出逼真的3D场景
Gaussian-SLAM:能够从视频流中重建出逼真的3D场景

通过观看一个视频,Gaussian-SLAM可以分析视频中的图像,能够理解视频中的环境布局和物体的位置。 然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型,重建现实世界场景。 而是这个过程…

简单部署Gemini机器人
简单部署Gemini机器人

英文还行,中文回答会错乱,一会一个说法… 部署很简单,教你们3分钟部署一个 第一步:打开这个开源程序:https://github.com/babaohuang/GeminiProChat…

更多