最近专心搞 AI 基建,重点之一就是浏览器自动化,这也是小🦞能让很多小白高呼惊艳的大杀器。
调研了一圈之后,最后留下来的两个种子选手分别是 Agent-Browser 和 PinchTab 。
它们都说自己是给 Agent 用的新一代自动化工具,但用起来完全是两个物种。花了几天时间踩坑后,把我的一点小小的踩坑心得梳理一下,免得你们重蹈覆辙。
先说 Agent-Browser,这货真是个宝贝啊!不信你翻开 OpenClaw 看看也内置了它。
Vercel 这帮人做的 Agent-Browser,说白了就是给 Playwright 套了个"AI友好"的壳。最爽的是什么?你可以直接在和 AI 对的时候跟它说"点击登录按钮",他就会自己去帮你探索到底应该点哪个按钮。
更妙的是,当你用 AI Coding(例如 Claude Code)帮你探索完自动化流程后,你可以让它再丝滑的转成 Playwright 生产代码。
这就像是先让 AI 先帮你画草图,等你满意了再让它你再把它变成工程图纸。整个过程行云流水,一个 Token 也不浪费。
再说 PinchTab,这玩意就是多自动化浏览器实例管理狂魔,还是能保存登录状态的那种!
PinchTab 是个 Go 写的独立服务,核心是一个 12MB 的二进制文件。执行之后会启动一个 HTTP 服务,然后 AI 就可以通过 curl 来通过调用这个服务去操控浏览器
它的设计哲学是:"我不管你用什么语言,反正我就是个 HTTP 服务,你爱怎么调就怎么调。"
最大的卖点是多实例自动编排。如果你需要同时跑 10 个浏览器实例(比如管理 10 个不同 X 账户),用 Playwright 你得自己管端口、进程、配置文件路径……但 PinchTab 一行命令直接搞定:自动分配端口 9868、9869、9870,配置文件管理、健康检查全都内置。
这货还标榜自己能通过模拟人类的鼠标操作和点击操作习惯,进一步躲避网站的反爬虫检测。
我怎么越看这货越像是个搞灰产的神器???
如果你的工作流和我类似是这样的:
- "我就写个 TypeScript 脚本,单实例够用"
- "我主要用 Claude Code 帮我写代码"
- "我想要开发体验好,能快速迭代"
那就无脑直接上 Agent-Browser 吧,背靠 Playwright 和 Electron 两个爸爸,它就是为你而生的。
如果你是这样的:
- "我要同时管 10 个账户,每个都要独立浏览器"
- "我用 Python/Go,不想碰 Node.js"
- "我要部署成微服务,扔到 Docker 里"
那就从一开始就用 PinchTab 吧,这种轮子可不是 Vibe Coding 能随手搓出来的。
https://github.com/vercel-labs/agent-browser
@aigc1024
调研了一圈之后,最后留下来的两个种子选手分别是 Agent-Browser 和 PinchTab 。
它们都说自己是给 Agent 用的新一代自动化工具,但用起来完全是两个物种。花了几天时间踩坑后,把我的一点小小的踩坑心得梳理一下,免得你们重蹈覆辙。
先说 Agent-Browser,这货真是个宝贝啊!不信你翻开 OpenClaw 看看也内置了它。
Vercel 这帮人做的 Agent-Browser,说白了就是给 Playwright 套了个"AI友好"的壳。最爽的是什么?你可以直接在和 AI 对的时候跟它说"点击登录按钮",他就会自己去帮你探索到底应该点哪个按钮。
更妙的是,当你用 AI Coding(例如 Claude Code)帮你探索完自动化流程后,你可以让它再丝滑的转成 Playwright 生产代码。
这就像是先让 AI 先帮你画草图,等你满意了再让它你再把它变成工程图纸。整个过程行云流水,一个 Token 也不浪费。
再说 PinchTab,这玩意就是多自动化浏览器实例管理狂魔,还是能保存登录状态的那种!
PinchTab 是个 Go 写的独立服务,核心是一个 12MB 的二进制文件。执行之后会启动一个 HTTP 服务,然后 AI 就可以通过 curl 来通过调用这个服务去操控浏览器
它的设计哲学是:"我不管你用什么语言,反正我就是个 HTTP 服务,你爱怎么调就怎么调。"
最大的卖点是多实例自动编排。如果你需要同时跑 10 个浏览器实例(比如管理 10 个不同 X 账户),用 Playwright 你得自己管端口、进程、配置文件路径……但 PinchTab 一行命令直接搞定:自动分配端口 9868、9869、9870,配置文件管理、健康检查全都内置。
这货还标榜自己能通过模拟人类的鼠标操作和点击操作习惯,进一步躲避网站的反爬虫检测。
我怎么越看这货越像是个搞灰产的神器???
如果你的工作流和我类似是这样的:
- "我就写个 TypeScript 脚本,单实例够用"
- "我主要用 Claude Code 帮我写代码"
- "我想要开发体验好,能快速迭代"
那就无脑直接上 Agent-Browser 吧,背靠 Playwright 和 Electron 两个爸爸,它就是为你而生的。
如果你是这样的:
- "我要同时管 10 个账户,每个都要独立浏览器"
- "我用 Python/Go,不想碰 Node.js"
- "我要部署成微服务,扔到 Docker 里"
那就从一开始就用 PinchTab 吧,这种轮子可不是 Vibe Coding 能随手搓出来的。
https://github.com/vercel-labs/agent-browser
@aigc1024