人生搜索引擎免费用,开源版哈利波特“冥想盆”登GitHub热榜,支持中文
天啦撸!回溯你在网上看过、做过的一切,也有免费软件可用了! 简单说,针对任何“之前好像在哪看过”的电脑文件,只需输入相关搜索词,这个软件都能帮你一键轻松回忆了。 打开方式be like(没错,也有中文...
多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
谁是在线购物领域最强大模型?也有评测基准了。 基于真实在线购物数据,电商巨头亚马逊终于“亮剑”—— 联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言...
集合 GameFi + AI 双热门叙事:融资 1350 万美元的 Ultiverse 为何值得关注
Gamefi 和 AI 是我们这个周期十分看好两大赛道之一,Gamefi 拥有极强的破圈效应,引领 Web2 用户进军 Web3 最佳利器。AI 是这个周期最热门赛道,无论 Web2 的 OpenAI...
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型
北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1...
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。 它借助语言模型(LLM)的原...
AppAgent:让AI模仿人类在手机上操作APP
AppAgent:让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。 它可以在社交媒体上发帖、帮你撰写和发送邮件 、使用地图、在线购物,甚至进行复杂的图像编辑… AppA…

Midjourney V6版本上线

一些反馈发现(单簧管总结): – 提示词长度现在是350+ – 您可以指定颜色和其他细节 – 你可以在画布上放置你想要的东西,如添加文本 – 您可以提示…

阿里巴巴 DreaMoving 放出在线体验地址
阿里巴巴 DreaMoving 放出在线体验地址

DreaMoving能仅靠脸部照片和文字提示就能生成在任何场景下跳舞的视频… 测了下跳舞动作还可以,但是和背景融合度不行,人物舞蹈和背景完全是隔离的,不能完全融合! 体验地址:https:…

Text-to-CAD :通过文本提示生成 CAD文件
Text-to-CAD :通过文本提示生成 CAD文件

只需要输入自然语言描述,它就能根据这些描述创建相应的 B-Rep CAD 文件和网格模型。 生成的模型可以导入到用户选择的任何 CAD 程序中。 Text-to-CAD 背后的基础设施利用了 Zoo …

Google发布新的视频模型:VideoPoet
Google发布新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从…

Gaussian-SLAM:能够从视频流中重建出逼真的3D场景
Gaussian-SLAM:能够从视频流中重建出逼真的3D场景

通过观看一个视频,Gaussian-SLAM可以分析视频中的图像,能够理解视频中的环境布局和物体的位置。 然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型,重建现实世界场景。 而是这个过程…

简单部署Gemini机器人
简单部署Gemini机器人

英文还行,中文回答会错乱,一会一个说法… 部署很简单,教你们3分钟部署一个 第一步:打开这个开源程序:https://github.com/babaohuang/GeminiProChat…

ChatGPT发布一周年之回顾与展望
ChatGPT发布一周年之回顾与展望

自去年11月底ChatGPT横空出世,已经过去了近一年的时间。 在本期视频中,将回顾GPT在过去一年的发展历程, 并结合OpenAI的研发方向和Sam Altman最新访谈内容, 展望GPT5的实际形…

更多