AppAgent：让AI模仿人类在手机上操作APP

AppAgent可以通过自主学习和模仿人类的点击和滑动手势，能够在手机上执行各种任务。

它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物，甚至进行复杂的图像编辑…

AppAgent在50 个任务上进行了广泛测试，涵盖了10种不同的应用程序。

该项目由腾讯和德州大学达拉斯分校的研究团开发。

主要功能特点：

– 多模态代理：AppAgent 是一个基于大语言模型的多模态代理，它能够处理和理解多种类型的信息（如文本、图像、触控操作等）。这使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。

– 直观交互：它能通过模仿人类的直观动作（如点击和滑动屏幕）来与智能手机应用程序交互。就像一个真人用户一样。

– 自主学习：AppAgent 通过观察和分析不同应用程序中的用户界面交互。并学习这些交互模式，并将所获得的知识编译成文档。

– 构建知识库：通过这些交互，AppAgent 构建了一个知识库，记录了不同应用程序的操作方法和界面布局。这个知识库随后用于指导代理在不同应用程序中执行任务。

-执行复杂任务：一旦学习了应用程序的操作方式，AppAgent 就能够执行跨应用程序的复杂任务，如发送电子邮件、编辑图片或进行在线购物。

项目及演示：https://appagent-official.github.io
论文：https://arxiv.org/abs/2312.13771
GitHub：https://github.com/mnotgod96/AppAgent

Post Views: 289