资讯 – 第 9 页

资讯 1年前

ElevenLabs 推出一个全自动化的AI配音或视频翻译工具

你只需要上传视频或者粘贴视频链接，这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。更牛P的是接克隆原视频里面的声音，来给你配音。就算是视频里面有多个人说话也能全部克隆翻译。下面…

资讯 1年前

HuixiangDou：利用AI解决群聊场景中冷场的问题

茴香豆是一个基于大语言模型的群聊知识助手，它能够自动识别并回答群聊中的技术相关的问题，且不会被群聊中的非技术内容干扰。可以集成到即时聊天工具（如微信、飞书）的群聊中。主要针对技术问题，特别是与编程…

资讯 1年前

RPG-DiffusionMaster：利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示，把一幅图像分解成不同的部分或区域。然后对每个部分都根据理解的相应文本提示来生成图像，最后合成为一个符合你预期要求的图像。该框架无需额外的模…

资讯 1年前

SCEPTER：由阿里巴巴开发的，一个专为生成模型设计的开源框架

用于训练、微调和推理生成模型，涵盖诸如图像生成、转换、编辑等下游任务。专门用于支持和简化图像生成、合成和编辑任务的开发，包括从文本到图像的生成和高级图像编辑技术。 1、任务支持：文本到图像生成：支…

资讯 1年前

LEGO：一个由字节跳动和复旦大学研发的多模态理解和图像定位模型

LEGO能够处理和理解多种类型的输入，支持图像、音频和视频输入，并对这些信息进行分析和理解。模型还具备精准定位的能力。例如在图像中标识出物体的具体位置，在视频中指出特定事件发生的时间点，在音频中识别…

资讯 1年前

Chatbot UI：一个开源的聊天机器人Web UI框架

支持接入OpenAI、Azure OpenAI、Anthropic、Google、Mistral和Perplexity等模型同时支持Ollama上的本地模型接入。这样你只需要输入这些模型的API，…

资讯 1年前

OpenAI 正式推出了GPTs Store 和ChatGPT Team订阅计划

已经有超过300万个GPTs被创建同时OpenAI将启动一个GPTs构建者收益计划，美国构建者将根据用户与他们的GPTs互动情况获得报酬。 ChatGPT Team订阅计划每月每用户25美元（年度计…

资讯 1年前

Luma AI发布：Genie 1.0版本

Genie是一个文本到3D模型的转换工具，能够在不到10秒内根据文本描述创建任何想象中的3D对象。生成的3D模型不仅包含形状，还包含了表面材料的细节，比如颜色、纹理或反光性，这使得模型更加逼真和详细…

资讯 1年前

百川智能发布角色大模型：Baichuan-NPC 只需文字描述即可定制需要的角色

这些角色包括游戏角色、动漫人物、网文主角等。每个角色都有自己的背景故事和特点，为用户提供了丰富的互动体验。百川称模型融合了角色知识库和多轮记忆能力，增强了对话和逻辑能力，使得角色扮演更为栩栩如生。 …

资讯 1年前

该来的终于来了，Midjourney将面临集体诉讼

Midjourney 被曝光未经许可使用了包含 16000 名艺术家的作品风格来训练其图像生成AI。这个名单不仅包括现代和当代著名艺术家的作品，还包括了为公司如Hasbro和Nintendo工作的商…

资讯 1年前

麻省理工大学研究团队开发出一种新技术：Ddog

通过脑电波控制波士顿动力的机器狗。该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动，然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

资讯 1年前

Google 发明了一种估算照片中光照条件的新方法：DiffusionLight

该技术可以在照片中加入一个看起来像是真实反射环境的铬球。这个铬球可以帮助计算出照片中的光照是怎样的。然后，他们使用这些光照信息在照片中添加新的物体，使得这些物体看起来好像是在原来的光照条件下拍摄的一…

资讯 1年前

Make-A-Character：一句话生成超逼真的3D数字人

你只需要通过文字描述人的脸型、五官、发型等特征，它就能在不到2分钟的时间内生成一个超逼真的3D角色。而且你可以自定义面部特征，例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子，以及添加皱纹和雀斑等。 …

资讯 1年前

斯坦福大学开发出一个几乎不会产生幻觉的模型：WikiChat

WikiChat基于英文维基百科信息。当它需要回答问题时，会先在维基百科上找到相关的、准确的信息，然后再给出回答，保证给出的回答既有用又可靠。在混合人类和LLM的评估中，WikiChat达到了97….

资讯 1年前

Rodin Gen-1：3D原生生成模型

– Rodin Gen-1拥有1.5B参数，是目前最大的3D原生生成大模型。它的功能类似于SD（Stable Diffusion）。 – 3D-to-3D：除了传统的3D建模，…

资讯 1年前

Bland Turbo：世界上最快的人工智能电话系统

– 同时拨打或接听多大500000个电话 – 保证和人类接听员一样的水准，自然且流畅 – 可以创建声音克隆，模仿任何人的声音 – 对其进行编程以执行任何…

资讯 1年前

GitHub发布 2023 年开源状况和人工智能崛起报告

– 2023年，越来越多的开发者开始使用AI技术，同时也尝试构建基于AI的应用程序。 – 基于OpenAI等公司的基础模型的生成性AI项目数量激增，其中一些项目甚至进入了最受欢…

资讯 1年前

TrailBlazer：利用边界框控制视频对象轨迹

TrailBlazer是英伟达的一个预训练好的模型，只需输入文本即可生成视频。同时他们提出一个边界框的概念，来控制视频对象的运动方向、速度和行为。例如，你可以通过改变边界框的大小、方向，让视频中的…

资讯 1年前

生成式AI搜索引擎 Perplexity 宣布获得7360万美元B轮融资，估值达5.2亿美元

Perplexity公布了一些数据： – Perplexity 的月活跃用户增长到了1000万 – 2023年，Perplexity处理了超过5亿次查询 – 超过1…

资讯 1年前

AnyText：解决图像生成中，文字无法和图融合、变形、乱码的问题

该项目由阿里巴巴开发，AnyText支持在图像中生成和编辑多种语言的文本，使其与背景无缝融合。该模型还解决了合成文本中模糊、不可读或错误字符的问题。 AnyText可以与现有的扩散模型集成，用于准确…