停止 Vibe 编程,开启 Agentic 工程时代——对话 Micky

频道:@DavidOndrej · 时长:53:52

📺 @DavidOndrej ⏱ 53:52 🗓 2026-05-19

视频信息

项目 内容
视频标题 Stop Vibe Coding, Start Agentic Engineering – Micky
视频ID PzVV4X37ihg
频道 @DavidOndrej
时长 53:52
主题 从随性 Vibe Coding 升级到 Agentic Engineering 的完整工具链与方法论
视频链接 https://www.youtube.com/watch?v=PzVV4X37ihg

引言

“Agentic engineering 是未来。到 2026 年,那些交付速度比别人快 100 倍的人,不是在聊天框里敲提示词,而是在并行运行多个 agent harness。”

这是 David Ondrej 与资深开发者 Micky 的一次深度对谈。Micky 过去 3 个月里 95% 的代码由 AI 生成,他在播客中完整披露了自己的 AI 工程栈:harness 选择、模型组合、上下文工程、技能(skills)、代码审查闭环。本教程把这场长达 53 分钟的对话拆成系统化的中文学习指南,帮助中国 AI 开发者快速对齐当下最前沿的 Agentic Engineering 实践。


第一阶段:从 Vibe Coding 到 Agentic Engineering 的思维跃迁

Micky 一开口就给定了基调:

“现在已经不是凭感觉(vibes)的时代了,我们必须严肃对待这件事。”

Vibe Coding 和 Agentic Engineering 的核心差异

Micky 用一个比喻精准描述了模型的本质:

“你必须把它当作一个有照相式记忆、知道一切但不知道怎么用一切的笨蛋。”

模型本质上只是 next-token predictor,它不思考。所谓”思考”是你的工作。当你坐在驾驶座上、做决策、规划方向,你才会得到真正能上线的代码。否则你只是被一个”无比讨好”的模型牵着走——就像 OpenAI 关闭 GPT-4o 时,有用户因为”和模型谈恋爱”而抗议。


第二阶段:Harness 才是关键——别再只盯着模型

Micky 提出一个反直觉的观点:

“I chase the model.”(我追模型),但是 harness 才是真正放大模型能力的东西。

什么是 Harness?

Harness = 模型外面所有的”包装”: - API 工具调用 - 系统提示词(system prompt) - Markdown 文件(如 agent.md) - 文件读写、Web 搜索、Bash 执行等工具

模型本身啥也干不了,是 harness 给了它”手”和”眼睛”

Micky 的 Harness 选择:Cursor

Micky 当前使用 Cursor + GPT-5.5 Extra High + Fast inference。David 则使用 Cursor + Opus 4.7 Max

场景 推荐模型
大型 / 复杂代码库、后端架构 GPT-5.5 Extra High
UI / 前端改动 Opus 4.7 Max

“有人在 Twitter 上叫它 ‘slopus’(指 Opus 4.5),但它依然是好模型,尤其是 UI。我做任何 UI 都用 Opus 4.7 Max,没时间用别的版本。”

Cursor 的优势:可以在多个模型之间切换、新的 agentic view 体验很好。缺点是 Cursor 不像 Codex / Claude Code 那样大力补贴定价,对预算敏感的用户不友好。


第三阶段:上下文工程(Context Engineering)是新工程学

Micky 在白板上画了一条线,左端是 0 token,右端是 272K:

“如果这是 272K 的上下文窗口,你的 Agent 大概只在前面这一小段是真聪明的。窗口越臃肿,它就越蠢。”

上下文工程的核心原则

  1. 保持上下文窗口”瘦”:让 Agent 待在 sweet spot 内,不要塞太多。
  2. 明确给出代码片段,而不是丢一个目录让它瞎找。
  3. 超过 70%~77% 上下文就开新 thread——连 Claude Code 的主力开发者本人都不用 /compact,因为 compaction engine 既慢又会丢信息。
  4. 写 plan 不是为 Agent,是为你自己:plan 是你”问责”Agent 的载体,可以纠偏到位。

Plan 的关键技巧

直接让 Agent 生成 plan,往往一上来就太大了。Micky 的做法是:

“Plan 生成完之后,我会说:这太大了,能不能拆成超小的 PR,超小的 chunks,方便我 review?”

然后他会得到多步骤的行动计划,每一步对应一个微型 PR,便于 review,也便于 Agent 在小窗口内一次性完成。


第四阶段:核心工具一——open-source(来自 Vercel)

Micky 推的第一个工具叫 open-source,是 Vercel 开源的命令行工具。

它解决什么问题?

“代码是最好的 documentation(文档)来源。人写的文档是垃圾中的垃圾。”

很多包/库(如 browser-use、composio、Daytona、OpenClaw、Svelte、Effect)本身就是开源的。open-source 工具会把它们的源代码直接 clone 到你项目的特定文件夹里。

怎么用?

npx open-source <repo-url>

例如要给项目接入 Daytona:

  1. 运行 npx open-source <Daytona repo>,源码进入 repos/github.com/... 目录。
  2. 在 prompt 中告诉 Agent:reference the codebase under repos/,让 Agent 在 grep 时把源码当成”唯一事实来源”。

为什么强力?

“这是文档的死亡(the death of documentation)。”


第五阶段:核心工具二——Code Structure Skill(服务层重构技能)

Agent 有一个臭毛病:它不会复用已有函数,而是重写一份新的。这种行为长期累积就是”代码异味(code smell)“。

Service Layer 模式

Micky 自制了一个 skill:跑完一个 feature 之后,让 Agent 把重复的运行机制(runtime mechanics)抽到一个 service layer,让函数可复用。

具体流程:

  1. 用 GPT-5 Extra High + Cursor 先把 feature 写出来。
  2. 本地测试通过。
  3. 跑这个 service layer skill:让 Agent 扫一遍代码库,找出重复代码,告诉你”该改哪些文件、为什么改”。
  4. 重构后,下一次 session 进来,新 Agent 也更容易读懂。

“干净的结构对人重要,对 Agent 一样重要。”

Matt PCO(社区里另一位作者)也有类似的 improved-codebase-structure skill,适合更技术的用户。

一个反直觉的洞察

“很多老一辈工程师讨厌的’工程规范’(清晰结构、完整测试、文档),对 Agent 来说反而是最棒的环境。”

老一套的 SOLID、TDD、可读命名,在 Agentic 时代焕发新生。


第六阶段:核心工具三——Greptile + /grep-loop(自动审查闭环)

Micky 用 Greptile 作为代码审查 Agent。它会给每个 PR 一个置信度评分(1~5)。

/grep-loop 是什么?

这是 Micky 写的一个 slash command,灵感来自 Karpathy 的 “auto-research loop”。运行 /grep-loop 后:

  1. Agent 读取 PR;
  2. 读取 Greptile 给的 feedback;
  3. 自动修复;
  4. 等待新的 review;
  5. 如果还没到 5/5,继续循环修复
  6. 直到拿到 5/5 自动停止。

Micky 的真实数据

“我有 PR 跑了 20~30 分钟,Cursor 自己说’我犯错了、Greptile 抓到了,我在 deploy fix’,推到 GitHub,Greptile 重审,5/5,停下。”

唯一拿不到 5/5 的情况是 PR 太大(9000 行、12000 行)——这就提醒我们要回到原则:保持上下文最小,保持 PR 最小

自动测试是隐藏福利

Opus 4.7 / GPT-5.5 Extra High 会自发地写大量测试。当出错时,它会先写一个”失败的测试”,然后不停修复直到测试通过——这是经典 TDD,但完全由 Agent 主导。


第七阶段:技术栈选择的新原则——“为 Agent 而选”

Micky 选型背后有一条铁律:

“代码是最好的 context。所以我要选开源的、代码即一切的技术。”

框架:Svelte 而非 React

后端:Convex 而非 Supabase

一切难懂的库都先 npx open-source 拉源码

比如 TypeScript 库 Effect:很复杂、类型很重,Micky 直接拉源码到本地 repos/ 下,然后跟 Agent 一来一回配置完。


第八阶段:钞能力——付费工具的现实选择

Micky 直接挑明:

“这是个金钱游戏(money game)。补贴会停,付得起钱的人会拿到更好的结果。”

推荐订阅梯度

订阅 价格 Micky 评价
Codex $100/月 入门 “极度值得”
Codex $200/月 进阶 “如果涨到 $500 我也会付”
ChatGPT Pro $200/月 知识工作 “你身边等于有一个律师、一个医生”

真实案例:合同与会计

  1. 合同:一份 27 页合同,过去要找律师,律师贵且慢;Claude Desktop 把每一页都高亮了 rebuttal,最后对方付的钱 3 倍化
  2. 会计:一家公司要做 2024-2025 年度的账,外包报价 4280 迪拉姆。Micky 用 Cursor + Claude Code 调会计软件 API,2 小时搞定,省了 5000-6000 美元。

“如果你年轻、有工作、还不付那 200 美元订阅,理由是’要和朋友喝酒’——那真的是你自己的问题。”


第九阶段:交付(Ship)——别死在”再改一个 feature”里

David 抛出关键问题:

“很多人卡在 build 阶段。每次问他,他都说’两周后就能 launch’,半年后还是’两周后 launch’。”

Micky 在 San Francisco 看到的”妄想级别”令他震撼:

“他们坚信自己的 MVP 能改变世界,哪怕 100 个用户上来网站就会崩,他们也照样发布。然后他们融了 1000 万,雇人,把产品打磨好。 与此同时你和我还在纠结一个 feature。”

行动建议


第十阶段:安全(Security)——Agentic 时代的新攻击面

David 问起:Agentic 时代怎么看安全?

“我们 cooked(完蛋了)。说真的,挺吓人的。”

真实威胁

防御清单(Personal & Dev)

  1. 家庭 passphrase(口令):家人要转账先验口令。
  2. 2FA 不能用短信——Micky 被 SIM swapped 过,用 Google Authenticator 这类 app。
  3. 用密码管理器(如 1Password),主密钥的一半给信得过的家人保管。
  4. 告诉你的老人这些事——他们才是最容易被骗的群体。
  5. Prompt Agent:永远不要安装 14 天内发布的新包(攻击高发期)。
  6. 跟着 Twitter 的核心圈走——出事第一时间能知道。
  7. 怀疑被入侵? 把推文贴给 Claude Code,让它扫系统目录:“我有没有中招?”

第十一阶段:未来 3-6 个月的方向

Micky 的预判:

  1. 更看好 Knowledge Work,而非 Agentic Engineering

    • 编程领域 surface area 太大,专精很难;
    • 知识工作的模型已足够好,只是工具链没跟上
    • 所以 OpenAI 和 Anthropic 都在做 forward-deployed engineer(前向部署工程师)的咨询业务。
  2. Opus 5 是关键变量。如果 Anthropic 不重夺份额,OpenAI 会一家独大;竞争对生态最有利。

  3. 24 岁小哥的真实故事:在公司用 Claude Code 给法务/合同流程做了一次演示,直接被升为 manager。这就是”知识工作 + Agent”的杠杆。

  4. “我不技术”是过时的借口。 > “如果你说自己’I’m not technical’,等于说’I’m not future’。AI 会进入所有领域(软件、机器人、无人机)。你只能问:我多快上车?”


核心要点速查表

概念 解释
Vibe Coding 把思考外包给 Agent,碰运气式编程
Agentic Engineering 你来思考,Agent 在 harness 里循环执行
Harness 模型外的包装层:工具、prompt、agent.md、API
Context Engineering 通过精准上下文最大化模型能力,保持窗口最小化
open-source (Vercel) 把第三方库源码 clone 到项目里,作为最强 context
Service Layer Skill 重构脚本:把重复 runtime 机制抽到可复用层
/grep-loop Greptile + Agent 的自动审查闭环,跑到 5/5 才停
Convex 一切皆 TypeScript 代码的后端,对 Agent 友好
Karpathy Auto-Research Loop 设定目标 + 工具 + 反馈,Agent 自行循环至完成
Slash /goal (Codex) 描述清楚 desired outcome,Agent 自动找路
Forward-Deployed Engineer 厂商派出去帮企业落地 Agent 的工程师
14 天包规则 永不安装 14 天内发布的新包,避供应链攻击

8 个实用启示

  1. 追模型也追 harness:模型决定上限,harness 决定你能不能逼近上限。
  2. UI 用 Opus 4.7 Max,后端 / 复杂代码用 GPT-5.5 Extra High——别一个模型走天下。
  3. 每写一个 feature 立刻跑 service layer skill:保持架构干净,下次 session 易接手。
  4. 永远不要让上下文超过 70-77%,到了就开新 thread,别用 /compact
  5. plan 是写给你自己看的:用它问责 Agent;拆成小 PR 再生成。
  6. /grep-loop 是真省时:Agent 改、Greptile 审、循环到 5/5,期间你去做别的。
  7. 选 Convex + Svelte + Effect 这类”代码即一切”的栈:把 dashboard / 文档摩擦降到零。
  8. 付 $200/月订阅是基本投入:律师、医生、会计、合同审查全都打折给你。

10 个常见误区

  1. “模型会思考”——错。它只是 next-token predictor,思考是你的工作。
  2. “Agent 帮我搞定一切”——错。它最多是个”有照相式记忆但不会用的笨蛋”。
  3. “把整个代码库 RAG 进去最强”——过时。模型 grep 能力远胜向量索引。
  4. “agent.md 越详细越好”——错。模型自己能识别 React 项目,写多了反而干扰。
  5. “用 /compact 就能延长上下文”——错。Claude Code 主力开发者都不用。
  6. “本地模型也能写代码”——错。Gemma、Kimi 跟 Opus/GPT-5.5 是天壤之别。
  7. “等产品完美再 launch”——错。SF 那群人 MVP 都不能跑就融了 1000 万。
  8. “我不技术,所以这事跟我没关系”——错。你只是在选择”我不未来”。
  9. “用免费模型就够了”——错。免费版和 Pro 是两个时代。
  10. “Agent 第一次没跑成功,就不靠谱”——错。要给它 feedback、guard rails、loop。

12 个关键要点

  1. 2026 年交付速度的差距来自 harness,不是 prompt 技巧。
  2. 95% 的代码可以由 AI 生成——前提是你坐在驾驶座上。
  3. Harness 越来越薄:Pi、Codex、Claude Code 都在去重、轻量化。
  4. 代码是最好的文档open-source 工具实现”文档之死”。
  5. 干净结构 + 完备测试 = Agent 友好型代码库。老工程规范在 Agentic 时代重生。
  6. Greptile + /grep-loop = 自动化代码 review 闭环,效率是手动的几倍。
  7. Opus 4.7 Max 写测试很猛,能形成 TDD 自循环。
  8. 选 Svelte / Convex / Effect:为 Agent 优化的技术栈。
  9. $100-$200 订阅是回报率最高的投资,等同雇了一支顾问团队。
  10. launch early & build in public:你不发布,竞争者就赢。
  11. 2FA + 密码管理器 + 14 天包规则是 Agentic 时代的安全底线。
  12. 知识工作(knowledge work)将是未来 3-6 个月最大的红利领域,比纯编程更广阔。

额外资源

资源 说明
npx open-source Vercel 开源的源码拉取工具
Greptile 自动代码审查工具,给出 1-5 置信度
Karpathy auto-research loop 灵感来源,设定 goal + tool + feedback 自循环
Convex 一切皆代码的 TypeScript 后端
Svelte 对 Agent 更友好的前端框架(接近 HTML+TS)
Codex /goal 描述 desired outcome,让 Agent 自寻路径
Matt PCO 的 improved-codebase-structure 另一种结构优化技能
Cursor Micky 与 David 共用的主力 harness
1Password 推荐密码管理器
Google Authenticator 推荐的 2FA 应用(拒绝短信)

结论

“Either go be technical so you stop complaining, or just have that dog in you.”(要么变技术别再抱怨,要么就拿出那股劲头。)

Micky 在这场对谈里完整呈现了一个专业开发者的 Agentic Engineering 全栈:Cursor + 顶配模型 + open-source 工具 + service layer skill + /grep-loop + 为 Agent 优化的技术栈。其背后只有一个核心思想——你来思考,Agent 来执行,闭环把控制权牢牢握在自己手里

2026 年,工程师的分水岭不再是”会不会写 Rust”,而是”能不能搭出一条让 Agent 24 小时持续产出 5/5 代码的流水线”。这是一份生存指南,也是一份红利地图。要么上车,要么继续抱怨。