文章 – 第 11 页

资讯 1年前

Pile：一款开源的界面非常整洁美观的AI日记软件

可以帮助你撰写和保存日记条目，记录你的思考和经历，当备忘录也可以！内置了OpenAI 的API功能，可以自己写提示词让AI帮你扩展你的想法和日记。还可以使用AI来搜索日记内容或对整个日记提出问题。…

资讯 1年前

M2UGen：多模态音乐理解和生成模型

该模型由腾讯与新加坡国立大学开发，M2UGen能够理解各种音乐，包括风格、演奏乐器、表达的情绪情感等，并进行音乐问答。而且还能根据文本、图像、视频和音频生成各种音乐，同时对生成的音乐也能理解并根据文…

资讯 1年前

LARP：一个开放世界游戏代理，赋予游戏角色真实的语言和认知能力

LARP能让游戏角色像真人一样和玩家对话，同时能够理解游戏中复杂的情境、记住过去的互动。并根据这些信息做出合理的反应。它能让游戏角色的行为更加真实和有深度，从而提升玩家的游戏体验。 LARP的工作原…

资讯 1年前

OpenVoice：多功能即时语音克隆

由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音，然后能生成多种语言的语音。 OpenVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参…

资讯 1年前

SSR-Encoder：从图像中提取关键特征来生成新的图像

SSR-Encoder能够提取图像中的多种特征，包括人物、视觉元素、风格、情感和细节等然后它会利用提取的这些特征再结合文字提示，重新生成新的图像。比如你看到一张照片，觉得它某一部分很好，就可以指定…

资讯 1年前

HandRefiner：解决AI图像生成中手部畸形的问题

目前的图像生成模型，再生成图像方面已经非常出色，但在生成人类手部的图像时却常常出现问题，比如手指数量不对或者手形怪异。 HandRefiner提出一种方法，在不改变图片其他部分的情况下，修正那些形状不…

资讯 1年前

2023年50个访问量最大的AI工具及AI行业分析报告

2023年50个访问量最大的AI工具及AI行业分析报告 Writerbuddy AI使用 SEO 行业著名的工具SEMrush，通过抓取AI工具数据，研究了3000多种 AI 工具。从中选出了访问量…

1年前

Spiritme AI ：一个有点类似Heygen，能帮你克隆虚拟形象的工具

你只需要通过iPhone随便拍摄一段大约5分钟的视频。它会用视频将用来捕捉你的外貌、动作和可能的表情。然后克隆一个虚拟的你！最牛的是它可以将PPT、PDF文件直接转换成解说视频，只需两次点击操作即…

资讯 1年前

GPT-Pilot：AI开发者伴侣

GPT Pilot 一个真正的AI程序员，它可以从零开始构建整个应用程序，它能自己编写代码、配置开发环境、管理开发任务、调试代码，你还可以随时和它聊天提问帮助你解决开发难题。你只需要在一旁监督开发过…

资讯 1年前

AI视频搜索引擎，你可以像问问题一样搜索视频

比如，你想知道“如何做蛋糕”，只需在这个网站上输入这个问题，它就会找到相关的视频来帮你解答。更牛P的是，你还可以跟视频进行对话，就像跟一个人聊天一样，还能帮你总结视频内容。最牛P的是他把这个项目开…

资讯 1年前

AppAgent：让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势，能够在手机上执行各种任务。它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物，甚至进行复杂的图像编辑… AppA…

资讯 1年前

Midjourney V6版本上线

一些反馈发现（单簧管总结）： – 提示词长度现在是350+ – 您可以指定颜色和其他细节 – 你可以在画布上放置你想要的东西，如添加文本 – 您可以提示…

资讯 1年前

阿里巴巴 DreaMoving 放出在线体验地址

DreaMoving能仅靠脸部照片和文字提示就能生成在任何场景下跳舞的视频… 测了下跳舞动作还可以，但是和背景融合度不行，人物舞蹈和背景完全是隔离的，不能完全融合！体验地址：https:…

资讯 1年前

Text-to-CAD ：通过文本提示生成 CAD文件

只需要输入自然语言描述，它就能根据这些描述创建相应的 B-Rep CAD 文件和网格模型。生成的模型可以导入到用户选择的任何 CAD 程序中。 Text-to-CAD 背后的基础设施利用了 Zoo …

资讯 1年前

Google发布新的视频模型：VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型，而本身就是个LLM，可以理解和处理多模态信息，并将它们融合到视频生成过程中。不仅能生成视频，还能给视频加上风格化的效果，还可修复和扩展视频，甚至从…

资讯 1年前

Runway 文字转语音功能正式发布

可以用来给生成的视频创建画外音和对话，支持细腻真实的人声效果，多种语言！

资讯 1年前

Gaussian-SLAM：能够从视频流中重建出逼真的3D场景

通过观看一个视频，Gaussian-SLAM可以分析视频中的图像，能够理解视频中的环境布局和物体的位置。然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型，重建现实世界场景。而是这个过程…

资讯 1年前

ComfyUI Portrait Master 肖像大师简体中文版来啦！

超详细参数设置！再也不用为不会写人像提示词发愁啦！重新优化为json列表更方便自定义和扩展！已包含标准工作流和turbo工作流. 肖像大师中文版2.0 ：https://github.com/ZHO-…

资讯 1年前

VOODOO 3D：可以把一个人的表情和动作精准的复制到另一个人的3D模型上

通过这项技术，你可以让一个虚拟的3D人物模型模仿真实人的表情和头部动作。而且这个过程是实时的，通过摄像头输入，当真人改变表情或头部姿势时，3D模型也会立即做出相同的反应。通俗来说就是：3D变脸术 …

教程 1年前

简单部署Gemini机器人

英文还行，中文回答会错乱，一会一个说法… 部署很简单，教你们3分钟部署一个第一步：打开这个开源程序：https://github.com/babaohuang/GeminiProChat…