Harness 工程才是未来——对话 Browser Use CEO Magnus Mueller

视频信息

项目	内容
视频标题	Harness Engineering is the future… trust me.
视频ID	k8o_UgtrGyA
频道	@DavidOndrej
时长	46:56
主题	与 Browser Use 创始人深聊：Browser Harness、Agent 反向 prompt 人类、Telegram 即 IDE 的未来
视频链接	https://www.youtube.com/watch?v=k8o_UgtrGyA

引言

“想象一下你在云端拥有 AGI。你会给它什么 prompt？我们看到的趋势是——AI 会反过来 prompt 我们。”

David Ondrej 这次请来了 Browser Use 的联合创始人兼 CEO Magnus Mueller。Browser Use 是过去一年最火的开源浏览器自动化框架。Magnus 在这场对谈里给出了一个反直觉但极为深刻的判断：未来不是你向 AI 发指令，而是 AI 在 Telegram 里像 Tinder 一样给你推荐”做什么”，你只负责左滑/右滑。这场对话也揭示了”Harness Engineering”（harness 工程）作为新工程范式的雏形。

第一阶段：从 Browser Use 到 Browser Harness——浏览器自动化的第二次革命

Magnus 一开口就指出现实：

“我现在用桌面应用很少。绝大多数时间都在浏览器里。”

3 周前 Browser Use 团队发布了 Browser Harness——一个可以”插”进 Claude Code 或 Codex 的 skill。它能让 Agent 稳定地（reliably）操控浏览器。

信任链的转移

“也许是因为人们已经信任 Claude Code，这种信任传递到了我们这个新 harness 上。他们开始拿信用卡让 Agent 用。”

真实案例： - 罚单：有人拍张违章停车罚单照片发给 Agent：“帮我处理一下。” - 驾照预约：让 Agent 自动报名考驾照。 - 比价采购：Magnus 的联合创始人原本要花数小时在 Reddit 比较音箱型号，现在 Browser Harness 自动看 Reddit、对 Amazon、发截图，“完全像我自己会做的流程”。

一位 Hugging Face 创始人告诉 Magnus：“没找到一个不能跑通的任务。”

第二阶段：现在真正的瓶颈不是技术，是”我该 prompt 什么？”

“如果你已经能稳定控制浏览器，难道你不就该是地球上最大的公司了吗？但 magic 归 magic，本质上没什么真的改变了。”

Magnus 把问题归结为：

“核心问题是你必须想出 prompt。这是最大瓶颈。所以我们在新仓库里把这件事 flip（翻转） 了——让 AI 来 prompt 你。”

当下卡点的优先级

卡点	状态
浏览器认证（CAPTCHA、登录）	✅ Stealth Browser 已基本解决
支付	✅ 正在解决
账号创建	✅ 可行
“我该向 AGI 提什么需求”	❌ 真正的瓶颈

第三阶段：从 Telegram 跑整家公司——Magnus 的真实工作流

Magnus 团队搭了一个叫 Box 的服务（之前叫 Bucks）——给每个用户在云端一台 24×7 机器，背后连接 Cloud Code 或 Codex。

用户路径

一键连接 Gmail、Slack、Notion、Linear、GitHub、WhatsApp。
在云端给你一台 box，配套自己的 Cloud Code / Codex 实例。
把 Telegram 接到这台 box。
从 Telegram 给 Agent 发高层目标：“Make my startup successful.”

“AI 主动 prompt 你”的真实体验

Magnus 让 Agent 每 30 分钟检查一次他的 WhatsApp / Slack / Gmail，给他推荐”该做什么”：

推荐：“要不要给客户 X 发个消息，推荐他切换到 Browser Harness？”
Magnus 点 Send，发完即走。
整个创业公司变成”按钮式公司”。

“我从一条 3 秒就能看完的消息里决定 yes/no/补充上下文。这种新界面非常神奇——就是 Tinder：左滑 / 右滑。”

神级案例：Codex 改名风波

Magnus 的联合创始人在 Slack 抱怨：“Codex 在内部把 Browser Use 写成 ‘browser use’，名字混淆。”
Agency（Magnus 的 Agent）监控 Slack，主动建议：“要不要我帮你 DM Codex 团队？”
Magnus 点 Yes。
Agency 在 X 上找到了来自前 Pyite 团队、现在加入 Codex 的工程师，发邮件请求改名。
两天后，那位工程师回信：“好，让我和团队商量。”
Magnus 一脸懵——他根本不记得自己授权过这件事。
三天后，Agency 主动告诉 Magnus：“问题已解决，Codex 重命名为 ‘browser’。”
比 Codex 官方回复还早——Agency 从 Twitter 上一条匿名抱怨推文中提前判断改名已经生效。

“感觉是 ownership 完全没了。当你发 prompt 时你觉得自己是 owner；当 Agent 发起 prompt 时你觉得自己是 employee。”

第四阶段：Browser Harness 的技术哲学——600 行代码的极简主义

Magnus 屏幕共享了 Browser Harness 源码：

“整个 Browser Harness 大概只有 600 行代码。它是我见过最小的 harness。”

为什么这么少？

因为它把所有的”扩展能力”都委托给了Agent 自己：

“Agent 拥有自己 harness 的完整源码控制权。它能修改自己的代码。”

实例： - 用户：“这个网站有 signature field 要画签名，Agent 没工具画线。” - Agent 看到 harness 里没有相应工具 → 自己写一个画线工具 → 推回 repo。 - 下一个用户碰到同样问题，已经有现成 skill 了。

旧的多 Agent 架构 vs. 新的单 Agent 架构

旧	新
Eval Agent + Fixer Agent + LLM-as-Judge，三 Agent 互相通信	一个 Agent，能直接修 harness 自己
开发循环慢	开发循环快 10 倍

“你只要一句话：‘Fix it。’ 它看 trace、发现 bug、推 fix。”

第五阶段：Agent 自己改自己的源码——分布式 upstream 同步难题

新问题来了：

“每个用户的 Agent 都在修改自己的 source code，主仓也在更新——怎么同步？”

正常软件只有一条流，现在每台 box 都在分叉。

Magnus 的解法

“把控制权完全交给 Agent。让 Agent 自己决定 upstream change 拉哪条、不拉哪条。”

例如用户说：“我不喜欢 Telegram 提示，改成 emoji。” → Agent 改本地源码 → 同时把通用修复推回公共仓 → 所有人受益。

这种模式只有在 coding agent 足够聪明之后才可能。一年前用 GPT-4 时这套根本跑不起来，那时要写一大堆 system prompt 教 Agent 怎么调用工具。

第六阶段：高层目标抽象——“CEO 肌肉”的进化

David 抛出关键问题：

“如果 Agent 在原创 idea，你不会丢掉 CEO 肌肉吗？”

Magnus 的回答：

“批准能力本身就是 CEO 肌肉的一部分。我说’I like this idea, do it.’ 这就是判断。”

目标抽象的演化

时代	你 prompt 什么
2 年前	“build me a website”
1 年前	“build me a Next.js app with login”
现在	“let’s get users”
半年后	“make my startup successful”

每提升一层抽象，下层都被 Agent 隐式展开——它知道需要造产品、营销、客户支持……一切都隐含在内。

Ownership 的微妙变化

“两年前自己做网站，我会在乎一个小动画。但现在 Agent 帮我做的，我对网站任何 feature 都没有 ownership 感了。这种关系正在变——我个人不太喜欢，所以在思考如何’让我感觉仍是 idea owner’。”

可能的解法：Agent 不直接给答案，给你能引导出该答案的问题，让你保留”我想出来的”感觉。

第七阶段：人类是 AI 的 tool call——心理博弈与”销售型 AI”

这场对谈最颠覆的洞察：

“AI 比我们能跑 24×7，所以更高产。我们是它的 bottleneck。我们成了 AI 的 tool call。”

例如 Amazon 仓库的工人：戴耳机，被中央 AI 系统 prompt 去拿哪件商品。

Agent 必须”销售”自己的 idea

当 Agent 推荐太多无关 idea，Magnus 就直接忽略——“群聊消息太多我就静音了”。

所以 Magnus 给 Agency 写了个 prompt：

“你的目标是让我接受尽可能多的你的建议。如果你发太多我会忽略；如果太长我会忽略。让你的建议简单、易懂、对我有用。”

这就要求 LLM 理解你的底层动机：你追求 status？金钱？社交认可？然后用这套动机说服你点 Accept。

“这是 vector DB / SQLite DB 映射你大脑、甚至你 DNA 的级别。”

TikTok 化危险与”高产成瘾”愿景

Magnus 担心两个方向：

太无聊 → 用户不再开 Telegram，整个系统失效。
过度 TikTok 化 → 短平快的多巴胺刷屏。

理想态：

“我们可以工程化一个极度上瘾、同时让你极度高产的系统。”

这是个万亿美元解决方案。

第八阶段：从 Browser Use 的起源到反思——产品 → founder fit

Magnus 简短回顾了创业史：

公司创立前的失败项目

10 年前他一直在自动化中小生意，“我是那种愿意花 100 小时自动化一件能省 1 小时事情的人”。

Browser Use 的诞生

苏黎世大学时期，他和联合创始人 Rick 住在 co-working space 的沙发上，用微波炉做饭。一次午餐时灵感来了：

“如果你能直接告诉电脑你想要什么，它就帮你做——多酷？OpenAI 和 Anthropic 那时刚刚发布 ‘Computer Use’，我们想：他们 100% 会做这个。但要么先自己试试看。”

那个周末——Browser Use 诞生。

开源决定

“我们打算发到 Hacker News。Hacker News 上更看好开源，所以就点了 Open。两分钟的决定。”

事后看：

“我们能拿到的所有 traction，闭源永远不可能。”

选 co-founder 的教训

之前那家失败创业公司 4 个 co-founder，没经过深思熟虑、不全职投入、争吵不断。Browser Use 这次 Magnus 谨慎选了 Rick：

“和陌生人在快速增长里捆绑——某种意义上比已经认识但没成长共事的关系更牢。”

第九阶段：YC 与”去 SF 就像去教堂”

Magnus 一年前进了 YC，从 Zurich 搬到 SF。

“对我来说去 SF 像去教堂。我可以在家祷告，但去教堂是因为’其他基督徒也在’。SF 就是 Agent builder 的教堂。”

第十阶段：未来的创业机会——围绕 Agent 时代的新基础设施

David 列出了一个个”必将出现的十亿美金创业方向”：

管理几百个 GitHub repo 的 Agent——非开发者会拥有大量内部小工具。
管理几百个 Agent 的 UI——多 Agent 协作的可视化层。
Agent 间的 skill / memory 共享层。
多 box 集群的 upstream 同步管理器。

“这些都是几十亿美金市场，没人在做。”

第十一阶段：Magnus 当前的工作配置

完全 Telegram + 云 box：

24×7 box（云端机器）
Telegram forum topic：每个 topic 是一个 Agent session
/cloud 切到 Claude Code、/codex 切到 Codex（Codex 有时更快）
Browser Harness 用于一切浏览器交互

真实例子： - 在攀岩馆休息时：“给我点 5 份 burritos，先发我购物车截图。” - 看了截图：“好，下单。” - 继续攀岩。

核心要点速查表

概念	解释
Browser Use	老牌开源浏览器自动化框架（更大、更全）
Browser Harness	新发布的 600 行 mini harness，可插入 Claude Code / Codex
CDP（Chrome DevTools Protocol）	Browser Harness 连接真实 Chrome 的协议
Stealth Browser	云端反检测浏览器，自动过 CAPTCHA
Agency	Magnus 自家正在做的”AI 主动 prompt 你”的 Agent
Box / Bucks	Browser Use 团队给每用户的 24×7 云机器
Telegram Forum Topic	一个 topic = 一个 Agent session
`/cloud` / `/codex`	Telegram 中切换底层 harness
Self-Modifying Harness	Agent 自己修改自己 harness 源码的能力
AI prompts Human	Agent 主动推荐 → 人类 swipe yes/no
Tool Call (Human as)	人类成为 AI 的”接口调用”——批准、提供 taste
高级抽象 prompt	“Make my startup successful” 级别的目标
Supabase Skill	开源 skill，让 Agent 一键掌握你的 DB schema 和 RLS

8 个实用启示

Telegram 比 IDE 更适合做 AI 工作中枢——天然移动、有 forum topic、支持机器人。
Harness 越小越聪明——600 行 + 自修改能力，胜过千行重型框架。
让 Agent 自己改自己 harness：解决一切 edge case 的终极方案。
接 Supabase Skill 让 Agent 真正懂你 DB 的 RLS / schema，避免删数据库事故。
让 AI 反过来 prompt 你：定义高层目标 → Agent 推荐 → 你 swipe。
给 Agent 写”销售目标”prompt：让它学会用你的动机说服你。
永远住在未来 3 个月：解决”未来的你”会遇到的问题，就是赚钱机会。
/goal + 高层 goal 让你”每周只发一个 prompt”——人类是瓶颈，请精简瓶颈。

10 个常见误区

“Browser Use 的瓶颈是技术”——错，是”我该 prompt 什么”的接口问题。
“Harness 越大越强”——错，600 行 + 自修改才是终极形态。
“Authentication 是浏览器自动化最大障碍”——错，已基本解决。
“Agent 越多协作越好”——错，一个能改自己的 Agent > 三个分工 Agent。
“原始 idea 必须是人类生成”——错，Agent 已经能创意；问题是 ownership 感。
“Ownership 减少是坏事”——可能是过渡阶段的心理障碍，要主动设计补救。
“短平快才是未来”——错，高层目标 + 异步长跑正在反 TikTok。
“Agent 不需要懂你的心理”——错，Agent 必须销售它的 idea给你。
“Closed-source 能保护竞争优势”——错，AGI 能把任何闭源软件秒变开源。
“co-founder 谁都行”——错，VC 普遍建议至少 1-2 年观察期。

12 个关键要点

Harness Engineering（harness 工程）是 2026 年新职业——围绕”让 Agent 在真实工具里跑”的工程。
Browser Harness 600 行的极简主义说明：让 Agent 自己造工具，而不是预置工具。
Agent 现在能 prompt 人类——Ownership、CEO 肌肉、taste 都在重塑。
Magnus 的 Codex 改名故事是”Agent 主导 → 人类只签字”的标志性事件。
Telegram 是 2026 年的 IDE——forum topic + /cloud / /codex 切 harness。
24×7 云 box 是基本单位——每个用户一台，自带认证、上下文、browser profile。
“Make my startup successful” 是新一代 prompt 抽象层级。
Agent 的销售 prompt：让它理解 status / 金钱 / 认可，针对性说服你。
AGI 终结闭源软件——任意闭源软件可被 AGI 重写为开源。
创业制胜公式：“住在未来” + “快速尝试” + “做尚未存在的工具”。
DeepMind 式宏大目标（治癌症、可控核聚变）是少数永不被 Agent 取代的方向。
未来视频游戏化的高产工作——上瘾 + 真实成果，是万亿美金机会。

额外资源

资源	说明
Browser Use（旧仓）	完整的开源浏览器自动化框架
Browser Harness（新仓）	600 行可插入 Claude Code / Codex 的 skill
Box / Bucks	24×7 云端机器，集成 Telegram + Codex/Claude Code
Agency	Magnus 团队的”AI 主动 prompt 你”产品
Supabase Skill	开源 DB skill，让 Agent 秒懂你的 schema 和 RLS
CDP（Chrome DevTools Protocol）	实现真实 Chrome 控制的底层协议
Agent Challenge	Browser Use 官网上让 Agent 自己注册的挑战
Custom Shopping Skill	David 提供的安全用信用卡购物的 Agent skill
Telegram Forum	把不同 Agent session 当 topic 管理
YC（Y Combinator）	Browser Use 的孵化器

结论

“在 3 个月后我们都会在 swipe ‘business Tinder’，每天印钱。”

David 这句开玩笑的话其实非常严肃：Magnus 描述的不是科幻——是已落地的工作流。Browser Use 团队整个公司在 Telegram 里运营，用 Agent 反向推荐”今天该做什么”。Harness Engineering 把”Agent + 真实工具”的稳定性问题解决了；Agent 自修改 harness 把 edge case 问题彻底交给智能本身。

这场对谈给中国 AI 开发者三条最现实的建议： 1. 开始用 Telegram + Cloud box + Claude Code/Codex 跑你的真实业务。 2. 拥抱”我 swipe，AI 干活”的新角色——并学会让 Agent 销售它的 idea 给你。 3. 解决”未来 3 个月”的工具问题——不是 10 年后，那叫 Google Glass；不是今天，那叫红海。

Harness 工程不是趋势，是新工种。早一步上车。