最近豆包手机爆火,让能够操作手机的 AI Agent 走入了大众视野。豆包 AI 手机助手挑战 B 站硬核会员试炼:5 分钟答完 100 道题、一手实测豆包手机助手,这就是当今手机Agent的天花板。之前给大家分享过:普通安卓手机变身 “豆包 AI 手机”:Operit AI,让普通安卓手机也能拥有类似的深度自动化能力,可以让 AI 帮自己点外卖、自动完成 B 站答题、刷淘宝等等。
现在智谱清言开源的「Open-AutoGLM」项目也可以让安卓手机就能自动完成操作,用自然语言指令驱动自动化操作,彻底解放你的双手。

据介绍「Open-AutoGLM」是一个专注于手机端的智能代理(Agent)框架,核心能力是听懂用户的自然语言指令,并自动操控手机完成任务。无论是社交、购物、外卖还是出行,只需一句话,它就能像人类一样 “看懂” 屏幕、规划步骤、执行操作。

例如:“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

目前支持 50 多个常用应用,包括有:
- 社交通讯:微信、QQ、微博
- 购物平台:淘宝、京东、拼多多
- 外卖平台:美团、饿了么、肯德基
- 出行工具:滴滴出行、携程、12306
- 视频音频:抖音、B站、爱奇艺、网易云音乐
- 本地生活:大众点评、高德地图、小红书、知乎等
工作原理就是:通过截图获取当前手机界面,借助视觉语言模型解析界面元素(如按钮、输入框、图标)→ 根据用户指令拆解出具体步骤 → 通过 ADB 模拟人类操作一步步完成任务。
如何体验
- 准备一台安卓手机(Android 7.0+),开启 “开发者模式” 和 “USB 调试”;
- 安装 ADB 工具和 ADB Keyboard(用于文本输入);
- 下载 Open-AutoGLM 项目代码,安装依赖;
- 部署模型服务(支持本地部署或调用智谱 BigModel 等第三方 API);
- 运行程序,输入指令(如 “打开微信给文件传输助手发消息:我成功了!”),即可见证手机自动操作。
部署要点
- 优先确认手机连接:在安装任何代码之前,先确保 adb devices 能看到设备
- 不要跳过 ADB Keyboard:没有它,中文输入会失败
- 模型服务是外部依赖:Agent 代码本身不包含模型,需要单独的模型服务
- 遇到权限问题先检查手机设置:大部分问题都是手机端配置不完整
- 部署完成后用简单任务测试:建议用「打开微信发消息给文件传输助手」作为验收标准
图像界面版
如果你觉得命令行不够直观,还可以试试第三方工具 AutoGLM-GUI 提供了图形化界面,只需要一个 OpenAI 兼容的模型服务,支持一键启动服务、输入指令、查看操作日志,小白用户也能轻松上手。

总结
从 “人操作手机” 到 “手机听懂人”,Open-AutoGLM 正在重新定义人与设备的交互方式。无论是提升日常效率,还是探索 AI 代理的更多可能,这个开源项目都值得一试。
下载地址
- 项目网站:
https://github.com/zai-org/Open-AutoGLM - 图形界面版:
https://github.com/suyiiyii/AutoGLM-GUI - 网盘下载:
https://pan.quark.cn/s/0c88ad744a38
