人生搜索引擎免费用,开源版哈利波特“冥想盆”登GitHub热榜,支持中文
天啦撸!回溯你在网上看过、做过的一切,也有免费软件可用了! 简单说,针对任何“之前好像在哪看过”的电脑文件,只需输入相关搜索词,这个软件都能帮你一键轻松回忆了。 打开方式be like(没错,也有中文...
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
谁是在线购物领域最强大模型?也有评测基准了。 基于真实在线购物数据,电商巨头亚马逊终于“亮剑”—— 联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言...
集合 GameFi + AI 双热门叙事:融资 1350 万美元的 Ultiverse 为何值得关注
Gamefi 和 AI 是我们这个周期十分看好两大赛道之一,Gamefi 拥有极强的破圈效应,引领 Web2 用户进军 Web3 最佳利器。AI 是这个周期最热门赛道,无论 Web2 的 OpenAI...
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型
北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1...
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。 它借助语言模型(LLM)的原...
SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力
SpeechGPT-Gen:为大语言模型提供内在的跨模态对话能力

它不仅能处理传统的文本数据,还能理解和生成语音数据,实现文本与语音之间的无缝对话。 能够接收语音输入,理解其内容,并以语音形式做出回应。 为大语言模型在处理和生成语音方面提供了强大的支持。 Speec…

Lumiere:一次性生成整个视频
Lumiere:一次性生成整个视频

Google Research团队开发的基于空间时间的文本到视频扩散模型。 它采用了创新的空间时间U-Net架构,能够一次性生成整个视频的时间长度,不同于其他模型那样逐帧合成视频。 确保了生成视频的连…

ElevenLabs 推出一个全自动化的AI配音或视频翻译工具
ElevenLabs 推出一个全自动化的AI配音或视频翻译工具

你只需要上传视频或者粘贴视频链接,这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。 更牛P的是接克隆原视频里面的声音,来给你配音。 就算是视频里面有多个人说话也能全部克隆翻译。 下面…

HuixiangDou:利用AI解决群聊场景中冷场的问题
HuixiangDou:利用AI解决群聊场景中冷场的问题

茴香豆是一个基于大语言模型的群聊知识助手,它能够自动识别并回答群聊中的技术相关的问题,且不会被群聊中的非技术内容干扰。 可以集成到即时聊天工具(如微信、飞书)的群聊中。 主要针对技术问题,特别是与编程…

RPG-DiffusionMaster:利用LLM优化SD文本到图像的转换过程

RPG利用大语言模型来更好地理解和分解生成图像的文字提示,把一幅图像分解成不同的部分或区域。 然后对每个部分都根据理解的相应文本提示来生成图像,最后合成为一个符合你预期要求的图像。 该框架无需额外的模…

Pinokio 一键自动化部署开源AI项目
Pinokio 一键自动化部署开源AI项目

安装、运行和控制这些AI引擎的过程可能是一项艰巨的任务。Pinokio基本上是一个自主的虚拟计算机,通过自动化命令行进程并使用户能够单击一次即可创建和共享脚本来简化此过程。 “就像一个网络浏览器,Pi…

Luma AI发布:Genie 1.0版本
Luma AI发布:Genie 1.0版本

Genie是一个文本到3D模型的转换工具,能够在不到10秒内根据文本描述创建任何想象中的3D对象。 生成的3D模型不仅包含形状,还包含了表面材料的细节,比如颜色、纹理或反光性,这使得模型更加逼真和详细…

该来的终于来了,Midjourney将面临集体诉讼
该来的终于来了,Midjourney将面临集体诉讼

Midjourney 被曝光未经许可使用了包含 16000 名艺术家的作品风格来训练其图像生成AI。 这个名单不仅包括现代和当代著名艺术家的作品,还包括了为公司如Hasbro和Nintendo工作的商…

麻省理工大学研究团队开发出一种新技术:Ddog
麻省理工大学研究团队开发出一种新技术:Ddog

通过脑电波控制波士顿动力的机器狗。 该技术仅靠一种特殊的眼镜就能读取人的脑电波和眼动,然后把这些信号传递给机器人执行动作。 Ddog系统只需要两 iPhone和一副蓝牙眼镜就可以运行。而且还可以完全离…

Make-A-Character:一句话生成超逼真的3D数字人
Make-A-Character:一句话生成超逼真的3D数字人

你只需要通过文字描述人的脸型、五官、发型等特征,它就能在不到2分钟的时间内生成一个超逼真的3D角色。 而且你可以自定义面部特征,例如脸型、眼睛颜色、发型、眉毛类型、嘴巴和鼻子,以及添加皱纹和雀斑等。 …

Rodin Gen-1:3D原生生成模型
Rodin Gen-1:3D原生生成模型

– Rodin Gen-1拥有1.5B参数,是目前最大的3D原生生成大模型。它的功能类似于SD(Stable Diffusion)。 – 3D-to-3D:除了传统的3D建模,…

更多