可以用来给生成的视频创建画外音和对话,支持细腻真实的人声效果,多种语言!
可以用来给生成的视频创建画外音和对话,支持细腻真实的人声效果,多种语言!
开源大模型全球格局,一夜再变。 这不,全新开源大模型亮相,性能全面超越开源标杆Llama 3。王座易主了。不是“媲美”、不是“追上”,是全面超越。发布两小时,直接冲上HggingFace开源大模型榜单…
Transformer很强,Transformer很好,但Transformer在处理时序数据时存在一定的局限性。 如计算复杂度高、对长序列数据处理不够高效等问题。 而在数据驱动的时代,时序预测成为许…
清华类脑计算研究中心施路平团队新成果,登上最新一期Nature封面。 团队研发出世界首款类脑互补视觉芯片——“天眸芯”。 “天眸芯”实现了一种基于视觉原语的互补双通路类脑视觉感知新范式,模仿了人类视觉…
微软Build大会前脚刚放出一箩筐生产力革命最新进展:自定义Copilot、Team Copilot、Copilot扩展…… 这两天在微软AI Day上,Copilot到底是如何提升生产力的,直接被搬…
WechatFerry 是一个微信机器人框架,提供了一套强大、快速且可定制的解决方案,适用于开发和集成微信机器人。为开发微信机器人的用户提供了 SDK 封装和多种插件,能够轻松调用微信的相关功能,适用…
7 月 23 日,Meta 正式发布 Llama 3.1 模型,包含 8B、70B 和 405B 三种参数规模。其中 405B 是目前最大开源模型之一,拥有 4050 亿参数,支持多语言输入输出,在复…
刚刚,GPT-4o mini版迎来“高光时刻”—— 登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3.5甩在了身后。 不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的…
只用提示词,多模态大模型就能更懂场景中的人物关系了。 北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型…
苹果OpenAI官宣合作,GPT-4o加持Siri,让AI个性化生成赛道热度飙升。 其实,国内已有相关研究,一项基于大模型的个性化多模态内容生成技术,直接可让AI学会为用户“量身定制”输出。 例如在聊…
谷歌开源模型Gemma 2开放了! 虽然前段时间Google I/O大会上,Gemma 2开源的消息就已经被放出,但谷歌还留了个小惊喜—— 除27B模型外,还有一个更轻的9B版本。 DeepMind创…
现在,最强数学大模型,人人都可上手玩了! 一觉醒来,阿里千问大模型团队发布了Qwen2-Math的Demo,抱抱脸在线可玩。 惊喜的是,如果嫌输入数学公式比较麻烦,可以把想问的题截图or扫描,上传即可…
What……控制机器人的工具,竟然可以是蘑菇? 有视频为证,这个长得像海星,在桌面上走来走去的机器人,里面就装上了一颗“蘑菇大脑”。 这是一项来自美国康奈尔大学和意大利佛罗伦萨大学的正经仿生学研究,已…
AI应用落地,算力不足仍是摆在众人面前的第一道槛。 这不,作为国产芯片设计公司,燧原科技成立时就碰上了这个老大难。 好在后来通过上云,其验证、benchmark测试效率从2周准备环境缩短至30分钟,算…
今日,第十七届英特尔网络与边缘计算行业大会在天津举行,超过400位生态伙伴和客户代表齐聚一堂,与英特尔共同探讨边缘AI的未来发展趋势,并介绍了众多基于英特尔边缘AI解决方案,在教育、智能制造等垂直领域…
最新消息,马斯克主动撤销了对OpenAI提起的诉讼。 就是之前指控奥特曼和OpenAI公然违背了创始协议转向盈利,要求OpenAI恢复开源那个事。 事件已过去近四个月,如今法院文件显示,此案是无罪开释…
一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。 GPT-4o质疑自己、怀疑自己,有“错”就改;Claude死犟,真错了也不改,最后直接已读不回。 事情还要从网友整了…
OpenAI又一轮震荡来了,1天之内3位高管离职。 就在CTO Mira官宣离职不久后,Altman亲自宣布了更多高层人事变动。 研究主管Bob McGrew、研究副总裁Barret Zoph也将离开…
在AI-2.0时代,OCR模型的研究难道到头了吗!? (OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术) Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型GOT。 用实验结果向…
李彦宏最新内部讲话曝光,一时间引发行业热议。 毕竟在当前各种大模型横扫榜单测试集、多项得分超过GPT-4o的现象中,很容易给人一种假象:下一个GPT-4o、下一个OpenAI就要诞生了。 为什么会这么…