Harness 工程才是未来——对话 Browser Use CEO Magnus Mueller

频道:@DavidOndrej · 时长:46:56

📺 @DavidOndrej ⏱ 46:56 🗓 2026-05-19

视频信息

项目 内容
视频标题 Harness Engineering is the future… trust me.
视频ID k8o_UgtrGyA
频道 @DavidOndrej
时长 46:56
主题 与 Browser Use 创始人深聊:Browser Harness、Agent 反向 prompt 人类、Telegram 即 IDE 的未来
视频链接 https://www.youtube.com/watch?v=k8o_UgtrGyA

引言

“想象一下你在云端拥有 AGI。你会给它什么 prompt?我们看到的趋势是——AI 会反过来 prompt 我们。”

David Ondrej 这次请来了 Browser Use 的联合创始人兼 CEO Magnus Mueller。Browser Use 是过去一年最火的开源浏览器自动化框架。Magnus 在这场对谈里给出了一个反直觉但极为深刻的判断:未来不是你向 AI 发指令,而是 AI 在 Telegram 里像 Tinder 一样给你推荐”做什么”,你只负责左滑/右滑。这场对话也揭示了”Harness Engineering”(harness 工程)作为新工程范式的雏形。


第一阶段:从 Browser Use 到 Browser Harness——浏览器自动化的第二次革命

Magnus 一开口就指出现实:

“我现在用桌面应用很少。绝大多数时间都在浏览器里。”

3 周前 Browser Use 团队发布了 Browser Harness——一个可以”插”进 Claude Code 或 Codex 的 skill。它能让 Agent 稳定地(reliably)操控浏览器。

信任链的转移

“也许是因为人们已经信任 Claude Code,这种信任传递到了我们这个新 harness 上。他们开始拿信用卡让 Agent 用。”

真实案例: - 罚单:有人拍张违章停车罚单照片发给 Agent:“帮我处理一下。” - 驾照预约:让 Agent 自动报名考驾照。 - 比价采购:Magnus 的联合创始人原本要花数小时在 Reddit 比较音箱型号,现在 Browser Harness 自动看 Reddit、对 Amazon、发截图,“完全像我自己会做的流程”。

一位 Hugging Face 创始人告诉 Magnus:“没找到一个不能跑通的任务。


第二阶段:现在真正的瓶颈不是技术,是”我该 prompt 什么?”

“如果你已经能稳定控制浏览器,难道你不就该是地球上最大的公司了吗?但 magic 归 magic,本质上没什么真的改变了。”

Magnus 把问题归结为:

“核心问题是你必须想出 prompt。这是最大瓶颈。所以我们在新仓库里把这件事 flip(翻转) 了——让 AI 来 prompt 你。

当下卡点的优先级

卡点 状态
浏览器认证(CAPTCHA、登录) ✅ Stealth Browser 已基本解决
支付 ✅ 正在解决
账号创建 ✅ 可行
“我该向 AGI 提什么需求” ❌ 真正的瓶颈

第三阶段:从 Telegram 跑整家公司——Magnus 的真实工作流

Magnus 团队搭了一个叫 Box 的服务(之前叫 Bucks)——给每个用户在云端一台 24×7 机器,背后连接 Cloud Code 或 Codex。

用户路径

  1. 一键连接 Gmail、Slack、Notion、Linear、GitHub、WhatsApp。
  2. 在云端给你一台 box,配套自己的 Cloud Code / Codex 实例。
  3. 把 Telegram 接到这台 box。
  4. 从 Telegram 给 Agent 发高层目标:“Make my startup successful.”

“AI 主动 prompt 你”的真实体验

Magnus 让 Agent 每 30 分钟检查一次他的 WhatsApp / Slack / Gmail,给他推荐”该做什么”

“我从一条 3 秒就能看完的消息里决定 yes/no/补充上下文。这种新界面非常神奇——就是 Tinder:左滑 / 右滑。”

神级案例:Codex 改名风波

  1. Magnus 的联合创始人在 Slack 抱怨:“Codex 在内部把 Browser Use 写成 ‘browser use’,名字混淆。”
  2. Agency(Magnus 的 Agent) 监控 Slack,主动建议:“要不要我帮你 DM Codex 团队?”
  3. Magnus 点 Yes。
  4. Agency 在 X 上找到了来自前 Pyite 团队、现在加入 Codex 的工程师,发邮件请求改名。
  5. 两天后,那位工程师回信:“好,让我和团队商量。”
  6. Magnus 一脸懵——他根本不记得自己授权过这件事。
  7. 三天后,Agency 主动告诉 Magnus:“问题已解决,Codex 重命名为 ‘browser’。
  8. 比 Codex 官方回复还早——Agency 从 Twitter 上一条匿名抱怨推文中提前判断改名已经生效。

“感觉是 ownership 完全没了。当你发 prompt 时你觉得自己是 owner;当 Agent 发起 prompt 时你觉得自己是 employee。”


第四阶段:Browser Harness 的技术哲学——600 行代码的极简主义

Magnus 屏幕共享了 Browser Harness 源码:

“整个 Browser Harness 大概只有 600 行代码。它是我见过最小的 harness。”

为什么这么少?

因为它把所有的”扩展能力”都委托给了Agent 自己

“Agent 拥有自己 harness 的完整源码控制权。它能修改自己的代码。”

实例: - 用户:“这个网站有 signature field 要画签名,Agent 没工具画线。” - Agent 看到 harness 里没有相应工具 → 自己写一个画线工具 → 推回 repo。 - 下一个用户碰到同样问题,已经有现成 skill 了

旧的多 Agent 架构 vs. 新的单 Agent 架构

Eval Agent + Fixer Agent + LLM-as-Judge,三 Agent 互相通信 一个 Agent,能直接修 harness 自己
开发循环慢 开发循环快 10 倍

“你只要一句话:‘Fix it。’ 它看 trace、发现 bug、推 fix。”


第五阶段:Agent 自己改自己的源码——分布式 upstream 同步难题

新问题来了:

“每个用户的 Agent 都在修改自己的 source code,主仓也在更新——怎么同步?”

正常软件只有一条流,现在每台 box 都在分叉。

Magnus 的解法

“把控制权完全交给 Agent。让 Agent 自己决定 upstream change 拉哪条、不拉哪条。”

例如用户说:“我不喜欢 Telegram 提示,改成 emoji。” → Agent 改本地源码 → 同时把通用修复推回公共仓 → 所有人受益。

这种模式只有在 coding agent 足够聪明之后才可能。一年前用 GPT-4 时这套根本跑不起来,那时要写一大堆 system prompt 教 Agent 怎么调用工具。


第六阶段:高层目标抽象——“CEO 肌肉”的进化

David 抛出关键问题:

“如果 Agent 在原创 idea,你不会丢掉 CEO 肌肉吗?”

Magnus 的回答:

批准能力本身就是 CEO 肌肉的一部分。我说’I like this idea, do it.’ 这就是判断。”

目标抽象的演化

时代 你 prompt 什么
2 年前 “build me a website”
1 年前 “build me a Next.js app with login”
现在 “let’s get users”
半年后 “make my startup successful”

每提升一层抽象,下层都被 Agent 隐式展开——它知道需要造产品、营销、客户支持……一切都隐含在内。

Ownership 的微妙变化

“两年前自己做网站,我会在乎一个小动画。但现在 Agent 帮我做的,我对网站任何 feature 都没有 ownership 感了。这种关系正在变——我个人不太喜欢,所以在思考如何’让我感觉仍是 idea owner’。”

可能的解法:Agent 不直接给答案,给你能引导出该答案的问题,让你保留”我想出来的”感觉。


第七阶段:人类是 AI 的 tool call——心理博弈与”销售型 AI”

这场对谈最颠覆的洞察:

“AI 比我们能跑 24×7,所以更高产。我们是它的 bottleneck。我们成了 AI 的 tool call。

例如 Amazon 仓库的工人:戴耳机,被中央 AI 系统 prompt 去拿哪件商品。

Agent 必须”销售”自己的 idea

当 Agent 推荐太多无关 idea,Magnus 就直接忽略——“群聊消息太多我就静音了”。

所以 Magnus 给 Agency 写了个 prompt:

“你的目标是让我接受尽可能多的你的建议。如果你发太多我会忽略;如果太长我会忽略。让你的建议简单、易懂、对我有用。”

这就要求 LLM 理解你的底层动机:你追求 status?金钱?社交认可?然后用这套动机说服你点 Accept。

“这是 vector DB / SQLite DB 映射你大脑、甚至你 DNA 的级别。”

TikTok 化危险与”高产成瘾”愿景

Magnus 担心两个方向:

  1. 太无聊 → 用户不再开 Telegram,整个系统失效。
  2. 过度 TikTok 化 → 短平快的多巴胺刷屏。

理想态:

“我们可以工程化一个极度上瘾、同时让你极度高产的系统。”

这是个万亿美元解决方案。


第八阶段:从 Browser Use 的起源到反思——产品 → founder fit

Magnus 简短回顾了创业史:

公司创立前的失败项目

10 年前他一直在自动化中小生意,“我是那种愿意花 100 小时自动化一件能省 1 小时事情的人”。

Browser Use 的诞生

苏黎世大学时期,他和联合创始人 Rick 住在 co-working space 的沙发上,用微波炉做饭。一次午餐时灵感来了:

“如果你能直接告诉电脑你想要什么,它就帮你做——多酷?OpenAI 和 Anthropic 那时刚刚发布 ‘Computer Use’,我们想:他们 100% 会做这个。但要么先自己试试看。”

那个周末——Browser Use 诞生

开源决定

“我们打算发到 Hacker News。Hacker News 上更看好开源,所以就点了 Open。两分钟的决定。”

事后看:

“我们能拿到的所有 traction,闭源永远不可能。”

选 co-founder 的教训

之前那家失败创业公司 4 个 co-founder,没经过深思熟虑、不全职投入、争吵不断。Browser Use 这次 Magnus 谨慎选了 Rick

“和陌生人在快速增长里捆绑——某种意义上比已经认识但没成长共事的关系更牢。”


第九阶段:YC 与”去 SF 就像去教堂”

Magnus 一年前进了 YC,从 Zurich 搬到 SF。

“对我来说去 SF 像去教堂。我可以在家祷告,但去教堂是因为’其他基督徒也在’。SF 就是 Agent builder 的教堂。”


第十阶段:未来的创业机会——围绕 Agent 时代的新基础设施

David 列出了一个个”必将出现的十亿美金创业方向”:

  1. 管理几百个 GitHub repo 的 Agent——非开发者会拥有大量内部小工具。
  2. 管理几百个 Agent 的 UI——多 Agent 协作的可视化层。
  3. Agent 间的 skill / memory 共享层
  4. 多 box 集群的 upstream 同步管理器

“这些都是几十亿美金市场,没人在做。”


第十一阶段:Magnus 当前的工作配置

完全 Telegram + 云 box:

真实例子: - 在攀岩馆休息时:“给我点 5 份 burritos,先发我购物车截图。” - 看了截图:“好,下单。” - 继续攀岩。


核心要点速查表

概念 解释
Browser Use 老牌开源浏览器自动化框架(更大、更全)
Browser Harness 新发布的 600 行 mini harness,可插入 Claude Code / Codex
CDP(Chrome DevTools Protocol) Browser Harness 连接真实 Chrome 的协议
Stealth Browser 云端反检测浏览器,自动过 CAPTCHA
Agency Magnus 自家正在做的”AI 主动 prompt 你”的 Agent
Box / Bucks Browser Use 团队给每用户的 24×7 云机器
Telegram Forum Topic 一个 topic = 一个 Agent session
/cloud / /codex Telegram 中切换底层 harness
Self-Modifying Harness Agent 自己修改自己 harness 源码的能力
AI prompts Human Agent 主动推荐 → 人类 swipe yes/no
Tool Call (Human as) 人类成为 AI 的”接口调用”——批准、提供 taste
高级抽象 prompt “Make my startup successful” 级别的目标
Supabase Skill 开源 skill,让 Agent 一键掌握你的 DB schema 和 RLS

8 个实用启示

  1. Telegram 比 IDE 更适合做 AI 工作中枢——天然移动、有 forum topic、支持机器人。
  2. Harness 越小越聪明——600 行 + 自修改能力,胜过千行重型框架。
  3. 让 Agent 自己改自己 harness:解决一切 edge case 的终极方案。
  4. 接 Supabase Skill 让 Agent 真正懂你 DB 的 RLS / schema,避免删数据库事故。
  5. 让 AI 反过来 prompt 你:定义高层目标 → Agent 推荐 → 你 swipe。
  6. 给 Agent 写”销售目标”prompt:让它学会用你的动机说服你。
  7. 永远住在未来 3 个月:解决”未来的你”会遇到的问题,就是赚钱机会。
  8. /goal + 高层 goal 让你”每周只发一个 prompt”——人类是瓶颈,请精简瓶颈。

10 个常见误区

  1. “Browser Use 的瓶颈是技术”——错,是”我该 prompt 什么”的接口问题。
  2. “Harness 越大越强”——错,600 行 + 自修改才是终极形态。
  3. “Authentication 是浏览器自动化最大障碍”——错,已基本解决。
  4. “Agent 越多协作越好”——错,一个能改自己的 Agent > 三个分工 Agent。
  5. “原始 idea 必须是人类生成”——错,Agent 已经能创意;问题是 ownership 感。
  6. “Ownership 减少是坏事”——可能是过渡阶段的心理障碍,要主动设计补救。
  7. “短平快才是未来”——错,高层目标 + 异步长跑正在反 TikTok。
  8. “Agent 不需要懂你的心理”——错,Agent 必须销售它的 idea给你。
  9. “Closed-source 能保护竞争优势”——错,AGI 能把任何闭源软件秒变开源。
  10. “co-founder 谁都行”——错,VC 普遍建议至少 1-2 年观察期。

12 个关键要点

  1. Harness Engineering(harness 工程)是 2026 年新职业——围绕”让 Agent 在真实工具里跑”的工程。
  2. Browser Harness 600 行的极简主义说明:让 Agent 自己造工具,而不是预置工具
  3. Agent 现在能 prompt 人类——Ownership、CEO 肌肉、taste 都在重塑。
  4. Magnus 的 Codex 改名故事是”Agent 主导 → 人类只签字”的标志性事件。
  5. Telegram 是 2026 年的 IDE——forum topic + /cloud / /codex 切 harness。
  6. 24×7 云 box 是基本单位——每个用户一台,自带认证、上下文、browser profile。
  7. “Make my startup successful” 是新一代 prompt 抽象层级。
  8. Agent 的销售 prompt:让它理解 status / 金钱 / 认可,针对性说服你。
  9. AGI 终结闭源软件——任意闭源软件可被 AGI 重写为开源。
  10. 创业制胜公式:“住在未来” + “快速尝试” + “做尚未存在的工具”。
  11. DeepMind 式宏大目标(治癌症、可控核聚变)是少数永不被 Agent 取代的方向。
  12. 未来视频游戏化的高产工作——上瘾 + 真实成果,是万亿美金机会。

额外资源

资源 说明
Browser Use(旧仓) 完整的开源浏览器自动化框架
Browser Harness(新仓) 600 行可插入 Claude Code / Codex 的 skill
Box / Bucks 24×7 云端机器,集成 Telegram + Codex/Claude Code
Agency Magnus 团队的”AI 主动 prompt 你”产品
Supabase Skill 开源 DB skill,让 Agent 秒懂你的 schema 和 RLS
CDP(Chrome DevTools Protocol) 实现真实 Chrome 控制的底层协议
Agent Challenge Browser Use 官网上让 Agent 自己注册的挑战
Custom Shopping Skill David 提供的安全用信用卡购物的 Agent skill
Telegram Forum 把不同 Agent session 当 topic 管理
YC(Y Combinator) Browser Use 的孵化器

结论

“在 3 个月后我们都会在 swipe ‘business Tinder’,每天印钱。”

David 这句开玩笑的话其实非常严肃:Magnus 描述的不是科幻——是已落地的工作流。Browser Use 团队整个公司在 Telegram 里运营,用 Agent 反向推荐”今天该做什么”。Harness Engineering 把”Agent + 真实工具”的稳定性问题解决了;Agent 自修改 harness 把 edge case 问题彻底交给智能本身。

这场对谈给中国 AI 开发者三条最现实的建议: 1. 开始用 Telegram + Cloud box + Claude Code/Codex 跑你的真实业务。 2. 拥抱”我 swipe,AI 干活”的新角色——并学会让 Agent 销售它的 idea 给你。 3. 解决”未来 3 个月”的工具问题——不是 10 年后,那叫 Google Glass;不是今天,那叫红海。

Harness 工程不是趋势,是新工种。早一步上车。