一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
LeCun谢赛宁全新多模态大模型开源:1000张A100算力训出SOTA,“不是另一个GPT-4V”
刚刚,谢赛宁&Lecun团队官宣新成果—— 正式推出以视觉为中心的多模态大模型Cambrian-1! 模型名为“寒武纪”,谢赛宁本人激动表示: 就像在寒武纪大爆发中生物发展出更好的视力一样,我...
NVIDIA发布数字人 AI 技术:NVIDIA ACE
NVIDIA发布数字人 AI 技术:NVIDIA ACE

可以让游戏NPC具有AI对话功能,同时能直接生成数字人的语音和面部动画! Avatar Cloud Engine (ACE)是一项用于提升游戏和虚拟角色互动体验的技术。 1.赋予游戏角色智能:ACE可…

接近生产级别的的3D生成模型,Rodin Gen-1 正式发布
接近生产级别的的3D生成模型,Rodin Gen-1 正式发布

可以在几十秒内通过文本生成高质量可直接使用的3D模型,这些模型使用四边形构造,并具有逼真的材质效果(看起来很真实)。 Rodin几乎达到了可以在实际项目和商业用途中直接应用的标准。 生成的3D模型质量…

阿里即将开源更强模型
阿里即将开源更强模型

Qwen1.5 来了,Qwen2还会远吗 还在上个月,阿里推出了国内开源模型中参数规模最大的 Qwen1.5-110B 模型。 根据官方公布的评测结果,Qwen1.5-110B略超过Llama-3-7…

OpenAI 推出 ChatGPT Edu 专为大学设计的版本
OpenAI 推出 ChatGPT Edu 专为大学设计的版本

ChatGPT Edu基于GPT-4o构建,能够处理文本和图像,并使用数据分析等高级工具。 支持超过50种语言,提供更高的质量回答和速度。 ChatGPT Edu允许用户创建和定制自己的GPT模型,并…

ToonCrafter:自动生成卡通动画的中间帧
ToonCrafter:自动生成卡通动画的中间帧

ToonCrafter:自动生成卡通动画的中间帧 并根据参考图像对动画草图自动上色 ToonCrafter 通过生成性插值方法,在卡通动画帧之间生成自然、连贯的中间帧。能够处理复杂的非线性运动和遮挡问…

利用一张图和提取视频中的人物姿势开源
利用一张图和提取视频中的人物姿势开源

阿里的那个利用一张图和提取视频中的人物姿势 合成角色动画的项目被Novita AI开源并做了API 现在可以通过他们的API直接接入合成动画了 你只需要提供一张照片+一个参考视频即可,它能够自动识别视…

AI神器腾讯元宝上线##腾讯元宝AI助手App上线
AI神器腾讯元宝上线##腾讯元宝AI助手App上线

就在刚刚,腾讯正式发布了基于混元大模型的面向消费者端的 AI 助手“腾讯元宝”。 目前已经上架应用宝、小米、华为、vivo、OPPO 等应用商店。 其主要功能包括 AI 搜索、AI 总结、AI 写作等…

ChatTTS:专门为对话场景设计的文本到语音TTS模型
ChatTTS:专门为对话场景设计的文本到语音TTS模型

这个语音专文本TTS模型 应该是目前对中文支持最好的了 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音…

百度文心大模型5.0或将明年发布
百度文心大模型5.0或将明年发布

据新浪科技爆料,百度或将于 2025 年百度世界大会期间发布新一代文心大模型5.0。 目前,文心大模型最新版本为 4.0 版本。 ​​​

Khoj:一个开源的个人化AI 助手
Khoj:一个开源的个人化AI 助手

能连接你的在线和本地文档 充当你的第二大脑 Khoj 可以连接你本地的PDF等文件和在线Markdown、GitHub和Notion文件,并将它们与在线信息整合在一起。 在你的文档和笔记中提供快速、准…

中国芯片领域史上最大规模基金项目落地
中国芯片领域史上最大规模基金项目落地

国家集成电路产业投资基金三期(大基金三期)正式成立,注册资本3440亿元。 此次投资比一期(987.2亿元)、二期(2041.5亿元)总和更多。 这是中国芯片领域史上最大规模基金项目,也是芯片领域最新…

StreamV2V:实时视频转换的开源工具
StreamV2V:实时视频转换的开源工具

可以进行视频实时换脸和风格转换 StreamV2V 能够在 RTX 4090 GPU 上实现实时视频到视频的转换,处理帧速率达到 20 FPS。 支持将视频中的人脸替换为其他人的脸 还可以将视频转换成…

更多