频道:@DavidOndrej · 时长:46:56
| 项目 | 内容 |
|---|---|
| 视频标题 | Harness Engineering is the future… trust me. |
| 视频ID | k8o_UgtrGyA |
| 频道 | @DavidOndrej |
| 时长 | 46:56 |
| 主题 | 与 Browser Use 创始人深聊:Browser Harness、Agent 反向 prompt 人类、Telegram 即 IDE 的未来 |
| 视频链接 | https://www.youtube.com/watch?v=k8o_UgtrGyA |
“想象一下你在云端拥有 AGI。你会给它什么 prompt?我们看到的趋势是——AI 会反过来 prompt 我们。”
David Ondrej 这次请来了 Browser Use 的联合创始人兼 CEO Magnus Mueller。Browser Use 是过去一年最火的开源浏览器自动化框架。Magnus 在这场对谈里给出了一个反直觉但极为深刻的判断:未来不是你向 AI 发指令,而是 AI 在 Telegram 里像 Tinder 一样给你推荐”做什么”,你只负责左滑/右滑。这场对话也揭示了”Harness Engineering”(harness 工程)作为新工程范式的雏形。
Magnus 一开口就指出现实:
“我现在用桌面应用很少。绝大多数时间都在浏览器里。”
3 周前 Browser Use 团队发布了 Browser Harness——一个可以”插”进 Claude Code 或 Codex 的 skill。它能让 Agent 稳定地(reliably)操控浏览器。
“也许是因为人们已经信任 Claude Code,这种信任传递到了我们这个新 harness 上。他们开始拿信用卡让 Agent 用。”
真实案例: - 罚单:有人拍张违章停车罚单照片发给 Agent:“帮我处理一下。” - 驾照预约:让 Agent 自动报名考驾照。 - 比价采购:Magnus 的联合创始人原本要花数小时在 Reddit 比较音箱型号,现在 Browser Harness 自动看 Reddit、对 Amazon、发截图,“完全像我自己会做的流程”。
一位 Hugging Face 创始人告诉 Magnus:“没找到一个不能跑通的任务。”
“如果你已经能稳定控制浏览器,难道你不就该是地球上最大的公司了吗?但 magic 归 magic,本质上没什么真的改变了。”
Magnus 把问题归结为:
“核心问题是你必须想出 prompt。这是最大瓶颈。所以我们在新仓库里把这件事 flip(翻转) 了——让 AI 来 prompt 你。”
| 卡点 | 状态 |
|---|---|
| 浏览器认证(CAPTCHA、登录) | ✅ Stealth Browser 已基本解决 |
| 支付 | ✅ 正在解决 |
| 账号创建 | ✅ 可行 |
| “我该向 AGI 提什么需求” | ❌ 真正的瓶颈 |
Magnus 团队搭了一个叫 Box 的服务(之前叫 Bucks)——给每个用户在云端一台 24×7 机器,背后连接 Cloud Code 或 Codex。
Magnus 让 Agent 每 30 分钟检查一次他的 WhatsApp / Slack / Gmail,给他推荐”该做什么”:
“我从一条 3 秒就能看完的消息里决定 yes/no/补充上下文。这种新界面非常神奇——就是 Tinder:左滑 / 右滑。”
“感觉是 ownership 完全没了。当你发 prompt 时你觉得自己是 owner;当 Agent 发起 prompt 时你觉得自己是 employee。”
Magnus 屏幕共享了 Browser Harness 源码:
“整个 Browser Harness 大概只有 600 行代码。它是我见过最小的 harness。”
因为它把所有的”扩展能力”都委托给了Agent 自己:
“Agent 拥有自己 harness 的完整源码控制权。它能修改自己的代码。”
实例: - 用户:“这个网站有 signature field 要画签名,Agent 没工具画线。” - Agent 看到 harness 里没有相应工具 → 自己写一个画线工具 → 推回 repo。 - 下一个用户碰到同样问题,已经有现成 skill 了。
| 旧 | 新 |
|---|---|
| Eval Agent + Fixer Agent + LLM-as-Judge,三 Agent 互相通信 | 一个 Agent,能直接修 harness 自己 |
| 开发循环慢 | 开发循环快 10 倍 |
“你只要一句话:‘Fix it。’ 它看 trace、发现 bug、推 fix。”
新问题来了:
“每个用户的 Agent 都在修改自己的 source code,主仓也在更新——怎么同步?”
正常软件只有一条流,现在每台 box 都在分叉。
“把控制权完全交给 Agent。让 Agent 自己决定 upstream change 拉哪条、不拉哪条。”
例如用户说:“我不喜欢 Telegram 提示,改成 emoji。” → Agent 改本地源码 → 同时把通用修复推回公共仓 → 所有人受益。
这种模式只有在 coding agent 足够聪明之后才可能。一年前用 GPT-4 时这套根本跑不起来,那时要写一大堆 system prompt 教 Agent 怎么调用工具。
David 抛出关键问题:
“如果 Agent 在原创 idea,你不会丢掉 CEO 肌肉吗?”
Magnus 的回答:
“批准能力本身就是 CEO 肌肉的一部分。我说’I like this idea, do it.’ 这就是判断。”
| 时代 | 你 prompt 什么 |
|---|---|
| 2 年前 | “build me a website” |
| 1 年前 | “build me a Next.js app with login” |
| 现在 | “let’s get users” |
| 半年后 | “make my startup successful” |
每提升一层抽象,下层都被 Agent 隐式展开——它知道需要造产品、营销、客户支持……一切都隐含在内。
“两年前自己做网站,我会在乎一个小动画。但现在 Agent 帮我做的,我对网站任何 feature 都没有 ownership 感了。这种关系正在变——我个人不太喜欢,所以在思考如何’让我感觉仍是 idea owner’。”
可能的解法:Agent 不直接给答案,给你能引导出该答案的问题,让你保留”我想出来的”感觉。
这场对谈最颠覆的洞察:
“AI 比我们能跑 24×7,所以更高产。我们是它的 bottleneck。我们成了 AI 的 tool call。”
例如 Amazon 仓库的工人:戴耳机,被中央 AI 系统 prompt 去拿哪件商品。
当 Agent 推荐太多无关 idea,Magnus 就直接忽略——“群聊消息太多我就静音了”。
所以 Magnus 给 Agency 写了个 prompt:
“你的目标是让我接受尽可能多的你的建议。如果你发太多我会忽略;如果太长我会忽略。让你的建议简单、易懂、对我有用。”
这就要求 LLM 理解你的底层动机:你追求 status?金钱?社交认可?然后用这套动机说服你点 Accept。
“这是 vector DB / SQLite DB 映射你大脑、甚至你 DNA 的级别。”
Magnus 担心两个方向:
理想态:
“我们可以工程化一个极度上瘾、同时让你极度高产的系统。”
这是个万亿美元解决方案。
Magnus 简短回顾了创业史:
10 年前他一直在自动化中小生意,“我是那种愿意花 100 小时自动化一件能省 1 小时事情的人”。
苏黎世大学时期,他和联合创始人 Rick 住在 co-working space 的沙发上,用微波炉做饭。一次午餐时灵感来了:
“如果你能直接告诉电脑你想要什么,它就帮你做——多酷?OpenAI 和 Anthropic 那时刚刚发布 ‘Computer Use’,我们想:他们 100% 会做这个。但要么先自己试试看。”
那个周末——Browser Use 诞生。
“我们打算发到 Hacker News。Hacker News 上更看好开源,所以就点了 Open。两分钟的决定。”
事后看:
“我们能拿到的所有 traction,闭源永远不可能。”
之前那家失败创业公司 4 个 co-founder,没经过深思熟虑、不全职投入、争吵不断。Browser Use 这次 Magnus 谨慎选了 Rick:
“和陌生人在快速增长里捆绑——某种意义上比已经认识但没成长共事的关系更牢。”
Magnus 一年前进了 YC,从 Zurich 搬到 SF。
“对我来说去 SF 像去教堂。我可以在家祷告,但去教堂是因为’其他基督徒也在’。SF 就是 Agent builder 的教堂。”
David 列出了一个个”必将出现的十亿美金创业方向”:
“这些都是几十亿美金市场,没人在做。”
完全 Telegram + 云 box:
/cloud 切到 Claude Code、/codex 切到
Codex(Codex 有时更快)真实例子: - 在攀岩馆休息时:“给我点 5 份 burritos,先发我购物车截图。” - 看了截图:“好,下单。” - 继续攀岩。
| 概念 | 解释 |
|---|---|
| Browser Use | 老牌开源浏览器自动化框架(更大、更全) |
| Browser Harness | 新发布的 600 行 mini harness,可插入 Claude Code / Codex |
| CDP(Chrome DevTools Protocol) | Browser Harness 连接真实 Chrome 的协议 |
| Stealth Browser | 云端反检测浏览器,自动过 CAPTCHA |
| Agency | Magnus 自家正在做的”AI 主动 prompt 你”的 Agent |
| Box / Bucks | Browser Use 团队给每用户的 24×7 云机器 |
| Telegram Forum Topic | 一个 topic = 一个 Agent session |
/cloud / /codex |
Telegram 中切换底层 harness |
| Self-Modifying Harness | Agent 自己修改自己 harness 源码的能力 |
| AI prompts Human | Agent 主动推荐 → 人类 swipe yes/no |
| Tool Call (Human as) | 人类成为 AI 的”接口调用”——批准、提供 taste |
| 高级抽象 prompt | “Make my startup successful” 级别的目标 |
| Supabase Skill | 开源 skill,让 Agent 一键掌握你的 DB schema 和 RLS |
/goal + 高层 goal 让你”每周只发一个
prompt”——人类是瓶颈,请精简瓶颈。/cloud / /codex 切 harness。| 资源 | 说明 |
|---|---|
| Browser Use(旧仓) | 完整的开源浏览器自动化框架 |
| Browser Harness(新仓) | 600 行可插入 Claude Code / Codex 的 skill |
| Box / Bucks | 24×7 云端机器,集成 Telegram + Codex/Claude Code |
| Agency | Magnus 团队的”AI 主动 prompt 你”产品 |
| Supabase Skill | 开源 DB skill,让 Agent 秒懂你的 schema 和 RLS |
| CDP(Chrome DevTools Protocol) | 实现真实 Chrome 控制的底层协议 |
| Agent Challenge | Browser Use 官网上让 Agent 自己注册的挑战 |
| Custom Shopping Skill | David 提供的安全用信用卡购物的 Agent skill |
| Telegram Forum | 把不同 Agent session 当 topic 管理 |
| YC(Y Combinator) | Browser Use 的孵化器 |
“在 3 个月后我们都会在 swipe ‘business Tinder’,每天印钱。”
David 这句开玩笑的话其实非常严肃:Magnus 描述的不是科幻——是已落地的工作流。Browser Use 团队整个公司在 Telegram 里运营,用 Agent 反向推荐”今天该做什么”。Harness Engineering 把”Agent + 真实工具”的稳定性问题解决了;Agent 自修改 harness 把 edge case 问题彻底交给智能本身。
这场对谈给中国 AI 开发者三条最现实的建议: 1. 开始用 Telegram + Cloud box + Claude Code/Codex 跑你的真实业务。 2. 拥抱”我 swipe,AI 干活”的新角色——并学会让 Agent 销售它的 idea 给你。 3. 解决”未来 3 个月”的工具问题——不是 10 年后,那叫 Google Glass;不是今天,那叫红海。
Harness 工程不是趋势,是新工种。早一步上车。