文章

OpenVoice:多功能即时语音克隆
OpenVoice:多功能即时语音克隆

由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。 OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参…

OpenAI下架寡姐声音

OpenAI的新王炸GPT-4o还没全面铺开,就摊上事了! 抓马的是,此次推出的“视频通话”功能一度被称为电影《Her》现实版,而怒斥OpenAI的刚好是给电影中AI配音的斯嘉丽·约翰逊(寡姐)。 寡…

中国芯片领域史上最大规模基金项目落地

国家集成电路产业投资基金三期(大基金三期)正式成立,注册资本3440亿元。 此次投资比一期(987.2亿元)、二期(2041.5亿元)总和更多。 这是中国芯片领域史上最大规模基金项目,也是芯片领域最新…

ChatGPT永久记忆功能正式上线
ChatGPT永久记忆功能正式上线

OpenAI宣布ChatGPT的一项重要更新:增加了记忆功能和新的用户控制选项。 GPT现在可以在与用户的交互中跨聊天记住你们互动的所有信息,并在后续对话中利用这些信息来提供更相关和个性化的回答。 之…

ChatDev火遍全球,GitHub星标超13k
ChatDev火遍全球,GitHub星标超13k

ChatDev是OpenBMB的发起者——面壁智能(ModelBest)联合清华大学NLP实验室共同开发的大模型全流程自动化软件开发框架,火遍全球,开源6周获星标13k,吸引国内外众多软件开发和创业者…

Stability AI 开源其 Stable Diffusion 3 Medium 模型
Stability AI 开源其 Stable Diffusion 3 Medium 模型

可在消费级笔记本电脑上运行 该模型包含 20 亿个参数。在图像质量上有显著提升,能够生成更高质量、更细腻的图像。能够更准确地将文本描述转换为图像。 Stable Diffusion 3 Medium …

鸿蒙份额超越iOS

调研机构 Counterpoint 发布报告称—— 在中国市场,华为鸿蒙OS 首次超越了 iOS,市场份额达到了 17%,成为国内第二大手机操作系统。 数据显示,Android 和 iOS 在全球市场…

让多模态大模型更懂人类在做什么

只用提示词,多模态大模型就能更懂场景中的人物关系了。 北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用提示词工程技术教会多模态大模型…

TrailBlazer:利用边界框控制视频对象轨迹
TrailBlazer:利用边界框控制视频对象轨迹

TrailBlazer是英伟达的一个预训练好的模型,只需输入文本即可生成视频。 同时他们提出一个边界框的概念,来控制视频对象的运动方向、速度和行为。 例如,你可以通过改变边界框的大小、方向,让视频中的…

更多