看个病都有大模型陪诊了!上海市第一人民医院主导,一手体验在此
现在看个病,都有大模型全程陪诊了。 这是上海市第一人民医院此时此时正在发生的事情—— AI就医助理,无需下载APP,打开支付宝就能用。 从诊前预约挂号、在线取号,到诊中院内导航、排队叫号、扫码支付,再...
一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实
大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Mu...
AI如何改变通信?对话联想懂的通信
刚刚,世界通信行业顶级大会——MWC上海站落下帷幕。 展会上,不仅5.5G(5G-A)标准正式亮相,AI也成为了通信领域新的热门话题。 与此同时,承载这些功能的终端丰富多样,从PC、汽车到新物种,已经...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
很炸裂!讯飞星火大秀语音识别能力,现场掌声雷动—— 三个人同时说话,再加上背景音乐,如此强干扰的场景,大模型却表示都能听懂听清,还瞬间转化为文字,语音识别的“鸡尾酒会”难题不在话下~ ,时长00:23...
谷歌开源系模型第二代免费开放!27B媲美LLaMA3 70B,单H100或TPU主机可跑
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创...
ToonCrafter:自动生成卡通动画的中间帧
ToonCrafter:自动生成卡通动画的中间帧

ToonCrafter:自动生成卡通动画的中间帧 并根据参考图像对动画草图自动上色 ToonCrafter 通过生成性插值方法,在卡通动画帧之间生成自然、连贯的中间帧。能够处理复杂的非线性运动和遮挡问…

【10分钟教你】如何使用Google PaLM2搭建个人知识库
【10分钟教你】如何使用Google PaLM2搭建个人知识库

我们都知道Chatgpt有一个严重的问题,就是幻觉,一部分原因是因为ChatGPT缺少该领域的专业知识。借助大型语言模型 (LLM),我们可以集成特定领域的数据来回答用户请求,一定程度缓解这个问题。这…

AI神器腾讯元宝上线##腾讯元宝AI助手App上线
AI神器腾讯元宝上线##腾讯元宝AI助手App上线

就在刚刚,腾讯正式发布了基于混元大模型的面向消费者端的 AI 助手“腾讯元宝”。 目前已经上架应用宝、小米、华为、vivo、OPPO 等应用商店。 其主要功能包括 AI 搜索、AI 总结、AI 写作等…

ChatGPT发布一周年之回顾与展望
ChatGPT发布一周年之回顾与展望

自去年11月底ChatGPT横空出世,已经过去了近一年的时间。 在本期视频中,将回顾GPT在过去一年的发展历程, 并结合OpenAI的研发方向和Sam Altman最新访谈内容, 展望GPT5的实际形…

Google发布新的视频模型:VideoPoet
Google发布新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从…

麻省理工大学研究团队开发出一种新技术:Ddog
麻省理工大学研究团队开发出一种新技术:Ddog

通过脑电波控制波士顿动力的机器狗。 该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动,然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

Backseat AI:英雄联盟 AI 游戏伴侣
Backseat AI:英雄联盟 AI 游戏伴侣

该助手能通过语音为玩家提供实时的游戏评论和建议,包括购买建议、对线策略等。 玩家可以在比赛中提出任何关于游戏的问题,并立即获得解答。 每场比赛结束后,玩家可以在赛后大厅页面查看比赛总结,包括各个玩家的…

AI虚拟角色国内产品榜TOP15
AI虚拟角色国内产品榜TOP15

AI智能助手,代表的是生产力方向。 AI陪伴,则是从互动娱乐的方向,展开最in AI原生产品的竞逐。 现在,无论是角色扮演、虚拟恋人还是日常陪伴,AI陪伴产品正在用AIGC技术,以产品化形态,来到了台…

Gaussian-SLAM:能够从视频流中重建出逼真的3D场景
Gaussian-SLAM:能够从视频流中重建出逼真的3D场景

通过观看一个视频,Gaussian-SLAM可以分析视频中的图像,能够理解视频中的环境布局和物体的位置。 然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型,重建现实世界场景。 而是这个过程…

AppAgent:让AI模仿人类在手机上操作APP
AppAgent:让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。 它可以在社交媒体上发帖、帮你撰写和发送邮件 、使用地图、在线购物,甚至进行复杂的图像编辑… AppA…

TrailBlazer:利用边界框控制视频对象轨迹
TrailBlazer:利用边界框控制视频对象轨迹

TrailBlazer是英伟达的一个预训练好的模型,只需输入文本即可生成视频。 同时他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为。 例如,你可以通过改变边界框的大小、方向,让视频中的…

更多