看个病都有大模型陪诊了!上海市第一人民医院主导,一手体验在此
现在看个病,都有大模型全程陪诊了。 这是上海市第一人民医院此时此时正在发生的事情—— AI就医助理,无需下载APP,打开支付宝就能用。 从诊前预约挂号、在线取号,到诊中院内导航、排队叫号、扫码支付,再...
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程
RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

YOLO v10:毫秒级实时的端到端目标检测开源模型
YOLO v10:毫秒级实时的端到端目标检测开源模型

由清华大学多媒体智能组(THU-MIG)开发。 从输入图像到输出检测结果的整个过程全部由模型直接完成,消除了中间的人工干预或额外处理步骤。 YOLOv10 能够在极短的时间内处理输入的图像或视频帧,通…

一键去除ai感脚本开源
一键去除ai感脚本开源

项目地址:https://github.com/wdy-pursue/rha 本项目原本是作为工作室的工具使用,但由于工作室工作流更新太快,目前脚本已废弃,在开发过程中,我们发现使用api调用TD T…

Stable Diffusion法线贴图预处理器详解
Stable Diffusion法线贴图预处理器详解

法线贴图这个东西,只要搞渲染算法的肯定会遇到。简单来讲,法线就是指模型表面的凹凸感,而凹凸感的产生是因为模型表面像素的光照条件不一样产生的。比如下面这个图,边缘光照压暗了,所以给人有一种凹凸3D感觉。

百度全球首发量子领域大模型:量子科技+大模型
百度全球首发量子领域大模型:量子科技+大模型

9月26日消息,量子信息科技一向被认为是未来产业的代表之一,有数据显示,到2031年全球69%的大型企业计划将采用量子计算。 而随着ChatGPT的横空出世,认知大模型也成为了全球科技界最热门的话题之…

AI视频搜索引擎,你可以像问问题一样搜索视频
AI视频搜索引擎,你可以像问问题一样搜索视频

比如,你想知道“如何做蛋糕”,只需在这个网站上输入这个问题,它就会找到相关的视频来帮你解答。 更牛P的是,你还可以跟视频进行对话,就像跟一个人聊天一样,还能帮你总结视频内容。 最牛P的是他把这个项目开…

Zero2Story互动故事生成器,一键创建新故事
Zero2Story互动故事生成器,一键创建新故事

Zero2Story :一个互动故事生成器,从零开始创建一键创建互动故事,包括插画和背景音乐。 用户可以自定义故事的类型、背景、地点、情感氛围,以及角色的各种属性。然后,系统会根据这些设置生成故事。 …

HuixiangDou:利用AI解决群聊场景中冷场的问题
HuixiangDou:利用AI解决群聊场景中冷场的问题

茴香豆是一个基于大语言模型的群聊知识助手,它能够自动识别并回答群聊中的技术相关的问题,且不会被群聊中的非技术内容干扰。 可以集成到即时聊天工具(如微信、飞书)的群聊中。 主要针对技术问题,特别是与编程…

Mistral发布7B模型0.3版本
Mistral发布7B模型0.3版本

抱抱脸上线了 Mistral-7B-v0.3 的基础版和指令微调版。 相比于Mistral-7B-v0.2,新版本更新如下: – 词汇量从 32000 扩展到 32768 – …

阿里巴巴 DreaMoving 放出在线体验地址
阿里巴巴 DreaMoving 放出在线体验地址

DreaMoving能仅靠脸部照片和文字提示就能生成在任何场景下跳舞的视频… 测了下跳舞动作还可以,但是和背景融合度不行,人物舞蹈和背景完全是隔离的,不能完全融合! 体验地址:https:…

腾讯混元发布开源加速库,生图时间缩短75%
腾讯混元发布开源加速库,生图时间缩短75%

腾讯混元针对文生图开源模型,发布了一组【加速库】—— 加速后的生图时间缩短75%、生图速度提升4倍。 据了解,官方通过两个方面实现生成加速: – 知识蒸馏。通过降低扩散模型迭代的步数实现加…

更多