文章

AppAgent:让AI模仿人类在手机上操作APP
AppAgent:让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。 它可以在社交媒体上发帖、帮你撰写和发送邮件 、使用地图、在线购物,甚至进行复杂的图像编辑… AppA…

Midjourney V6版本上线

一些反馈发现(单簧管总结): – 提示词长度现在是350+ – 您可以指定颜色和其他细节 – 你可以在画布上放置你想要的东西,如添加文本 – 您可以提示…

阿里巴巴 DreaMoving 放出在线体验地址
阿里巴巴 DreaMoving 放出在线体验地址

DreaMoving能仅靠脸部照片和文字提示就能生成在任何场景下跳舞的视频… 测了下跳舞动作还可以,但是和背景融合度不行,人物舞蹈和背景完全是隔离的,不能完全融合! 体验地址:https:…

Text-to-CAD :通过文本提示生成 CAD文件
Text-to-CAD :通过文本提示生成 CAD文件

只需要输入自然语言描述,它就能根据这些描述创建相应的 B-Rep CAD 文件和网格模型。 生成的模型可以导入到用户选择的任何 CAD 程序中。 Text-to-CAD 背后的基础设施利用了 Zoo …

Google发布新的视频模型:VideoPoet
Google发布新的视频模型:VideoPoet

它可以根据文字描述来生成视频。但它不是基于扩散模型,而本身就是个LLM,可以理解和处理多模态信息,并将它们融合到视频生成过程中。 不仅能生成视频,还能给视频加上风格化的效果,还可修复和扩展视频,甚至从…

Gaussian-SLAM:能够从视频流中重建出逼真的3D场景
Gaussian-SLAM:能够从视频流中重建出逼真的3D场景

通过观看一个视频,Gaussian-SLAM可以分析视频中的图像,能够理解视频中的环境布局和物体的位置。 然后利用这些图像数据来创建、还原可以从各个角度观察的3D模型,重建现实世界场景。 而是这个过程…

简单部署Gemini机器人
简单部署Gemini机器人

英文还行,中文回答会错乱,一会一个说法… 部署很简单,教你们3分钟部署一个 第一步:打开这个开源程序:https://github.com/babaohuang/GeminiProChat…

ChatGPT发布一周年之回顾与展望
ChatGPT发布一周年之回顾与展望

自去年11月底ChatGPT横空出世,已经过去了近一年的时间。 在本期视频中,将回顾GPT在过去一年的发展历程, 并结合OpenAI的研发方向和Sam Altman最新访谈内容, 展望GPT5的实际形…

更多