浏览器 / 手机 / 电脑自动化
当任务需要「操作界面」而不只是读数据时,智能体可以驱动浏览器、手机或电脑。
浏览器(browser_*)
在云端无头浏览器(Chromium)里操作网页:
| 工具 | 作用 |
|---|---|
browser_navigate | 打开网址 |
browser_click / browser_type | 点击 / 输入 |
browser_screenshot | 截图(作为 artifact) |
browser_read_dom / browser_accessibility | 读取页面结构 |
browser_download / browser_downloads | 下载与查看下载 |
适用:登录某网站后抓取信息、填表、走一个网页流程。
手机操作(mobile_use)
用自然语言驱动移动设备/App,返回结构化的执行结果(状态/摘要/步骤),而非裸设备句柄。
电脑操作(computer_use)
用自然语言驱动桌面电脑,是手机操作的桌面对应物,同样返回结构化结果。
注意
- 设备/界面操作属外部动作,默认先请你确认再执行。
- 手机/电脑操作需要相应的设备或云端实例已配置;未配置时该能力不会出现,避免给出坏工具。
- 这些工具返回的是逻辑会话标识与步骤摘要,不会暴露底层连接句柄或本地路径。