智谱开源神器 Open-AutoGLM:一句话让手机自动刷小红书、订外卖

最近豆包手机爆火,让能够操作手机的 AI Agent 走入了大众视野。豆包 AI 手机助手挑战 B 站硬核会员试炼:5 分钟答完 100 道题一手实测豆包手机助手,这就是当今手机Agent的天花板。之前给大家分享过:普通安卓手机变身 “豆包 AI 手机”:Operit AI,让普通安卓手机也能拥有类似的深度自动化能力,可以让 AI 帮自己点外卖、自动完成 B 站答题、刷淘宝等等。

现在智谱清言开源的「Open-AutoGLM」项目也可以让安卓手机就能自动完成操作,用自然语言指令驱动自动化操作,彻底解放你的双手。

20251212-3

据介绍「Open-AutoGLM」是一个专注于手机端的智能代理(Agent)框架,核心能力是听懂用户的自然语言指令,并自动操控手机完成任务。无论是社交、购物、外卖还是出行,只需一句话,它就能像人类一样 “看懂” 屏幕、规划步骤、执行操作。

20251212-4

例如:“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

20251212

目前支持 50 多个常用应用,包括有:

  • 社交通讯:微信、QQ、微博
  • 购物平台:淘宝、京东、拼多多
  • 外卖平台:美团、饿了么、肯德基
  • 出行工具:滴滴出行、携程、12306
  • 视频音频:抖音、B站、爱奇艺、网易云音乐
  • 本地生活:大众点评、高德地图、小红书、知乎等

工作原理就是:通过截图获取当前手机界面,借助视觉语言模型解析界面元素(如按钮、输入框、图标)→ 根据用户指令拆解出具体步骤 → 通过 ADB 模拟人类操作一步步完成任务。

如何体验

  • 准备一台安卓手机(Android 7.0+),开启 “开发者模式” 和 “USB 调试”;
  • 安装 ADB 工具和 ADB Keyboard(用于文本输入);
  • 下载 Open-AutoGLM 项目代码,安装依赖;
  • 部署模型服务(支持本地部署或调用智谱 BigModel 等第三方 API);
  • 运行程序,输入指令(如 “打开微信给文件传输助手发消息:我成功了!”),即可见证手机自动操作。

部署要点

  • 优先确认手机连接:在安装任何代码之前,先确保 adb devices 能看到设备
  • 不要跳过 ADB Keyboard:没有它,中文输入会失败
  • 模型服务是外部依赖:Agent 代码本身不包含模型,需要单独的模型服务
  • 遇到权限问题先检查手机设置:大部分问题都是手机端配置不完整
  • 部署完成后用简单任务测试:建议用「打开微信发消息给文件传输助手」作为验收标准

图像界面版

如果你觉得命令行不够直观,还可以试试第三方工具 AutoGLM-GUI 提供了图形化界面,只需要一个 OpenAI 兼容的模型服务,支持一键启动服务、输入指令、查看操作日志,小白用户也能轻松上手。

20251212-5

总结

从 “人操作手机” 到 “手机听懂人”,Open-AutoGLM 正在重新定义人与设备的交互方式。无论是提升日常效率,还是探索 AI 代理的更多可能,这个开源项目都值得一试。

下载地址

  • 项目网站:
    https://github.com/zai-org/Open-AutoGLM
  • 图形界面版:
    https://github.com/suyiiyii/AutoGLM-GUI
  • 网盘下载:
    https://pan.quark.cn/s/0c88ad744a38