这款 AI Agent 真的能自我进化 —— Space Agent 完整解析

视频信息

项目	内容
视频标题	This AI Agent can actually self-evolve
视频ID	F3ZzNgf-R7Y
频道	@DavidOndrej
时长	46:50
主题	与 Agent Zero 创始人 Yan 的访谈与现场演示：在浏览器中运行的全新自我进化 AI Agent —— Space Agent
视频链接	https://www.youtube.com/watch?v=F3ZzNgf-R7Y

引言

“这基本上是第一个真正能自我更新的 Agent。其他 Agent 只能更新 markdown 文件或创建 skills，没法真的为用户创建展示的 UI。这是一个新范式：自我改进、自我更新的 Agents。”

David 邀请到 Space Agent 与 Agent Zero 的创始人 Yan，现场演示这个上线仅 25 天的项目。Space Agent 与所有过往 Agent 的根本区别在于：它运行在浏览器的 JavaScript 运行时里，能在客户端直接 mutate 页面、生成 widgets、写自己的 UI。整段视频就是一场关于”如果 Agent 能完整控制自己所在的所有层级，会发生什么”的现场实验。

第一阶段：Agent 的”层”问题

1.1 传统 Agent 被困在哪里

Yan 指出，大多数 Agent 都被困在一个层级里： - 在 VPS 后端跑 Python/Node.js 的 Agent，通过 WhatsApp / Telegram 通信 - 它可以在后端做事，但无法改变 WhatsApp 客户端的 UI - 即使是有 web UI 的 Agent（如 Agent Zero），想做点特殊 UI，要么后端生成图发到前端，要么修改后端然后让用户刷新

“即使是浏览器里能访问的 Agents，也依然被限制在它们实际生活的那一层。”

1.2 Space Agent 的突破

Space Agent 运行在客户端的 JavaScript runtime 里，可以直接修改它显示在的页面。它通过 “spaces” 和 “widgets” 系统按需渲染任何东西——价格图、新闻仪表板、监控视图、甚至浏览器内可玩的游戏。

第二阶段：上手体验

2.1 零安装启动

访问 GitHub repo 的 “Try Live Now” 按钮，或直接到 space-agent.ai
两次点击获得临时 guest 账号
填入 LLM API key（默认推荐 Open Router，因为一个 key 覆盖 OpenAI/Anthropic/Google 所有模型）

2.2 第一个交互：天气查询

Yan 输入：

What is the weather in Prague?

Agent 在聊天里回复天气。然后再输入：

Show it to me in a widget.

Agent 立刻在 space 里生成一个天气 widget。关键：聊天用极简模式只显示回答，可展开看历史。

2.3 Token 效率的秘密

“天气查询包括首次回复一共 97 tokens，生成 widget 只用了 280 tokens。”

Space Agent 的对话格式没有 JSON、没有 tool calling 字段、没有任何额外格式： - 普通对话：纯文本回复，跟 ChatGPT 一样，没有一个额外 token - 需要执行 JS 时：使用一个特殊 token（__javascript，仅 2 个 token，因为 __ 是 1 个、javascript 是 1 个），后面跟着 JS 代码 - 没有 JSON 转义，没有额外字段

返回的数据用 YAML 格式（也比 JSON 省 token）。

“在前沿模型越来越贵的时代（GPT 5.5 Pro 是 $180/百万输出 token），人们会开始关心 tokenomics——哪个 harness、哪个 Agent 能最高效地跑最好的模型。”

第三阶段：系统提示词的迭代

“我没写一行系统提示词。我创建了第一版大纲，然后用 Codex 设置自动 research，每次生成三个新版本：保守、中等、大幅修改。再加上自动测试。”

Yan 说现在的版本号约 250。这是 LLM 自我优化 prompt 的典型工作流：让 AI 反复生成变体并基于 eval 选择最优。

第四阶段：现场演示 —— Space Agent 能做什么

4.1 笔记应用（约 10 分钟构建）

多个 widget 协作：列表、编辑器、文件夹
可视化与 Markdown 视图自由切换
复制粘贴、图片、附件全支持
数据本地存储（如果是 native app，所有数据都在你机器上）

4.2 监控仪表板（1-2 分钟构建）

随机公共 IP 摄像头汇总到一个 dashboard。这指向 Space Agent 真正擅长的：编排和监控其他系统。

4.3 与 Agent Zero 对接

Yan 让 Space Agent 创建一个聊天界面调用 Agent Zero API，然后嵌入完整的 Agent Zero web UI。Space Agent 可以像浏览器一样操作 Agent Zero 的页面——这是真正的”Agent 控制 Agent”。

4.4 浏览器自动化的工作原理

页面被转录成简化文本：

button 51 (error, red) cancel
input 12 search
slider 8 volume

Agent 看不到 HTML 或 DOM，只看到带编号的可交互元素
想点按钮就说 click button 25，得到新的转录页面
一次操作只用 19 tokens

“网站超难爬。iframe、shadow DOM、各种嵌套元素。我们甚至在浏览器渲染器里注入了 hacks，自动打开所有元素让它可抓取。”

第五阶段：Transient Context 与 Cache 友好

“我们不把页面状态保存在历史里。一旦页面状态过去了，我们就不需要它了。”

Yan 把经常变化的上下文（页面快照、widget 源码）放在最后一个 cache breakpoint 之后，称为 transient context： - 不进 cache - 每轮可替换 - 避免破坏 prompt caching（如果改前面的历史，整条 cache 失效，价格暴涨）

这样维持长上下文与低 token 消耗。

第六阶段：自定义任意 UI 的实战

6.1 Research 模板（导出 PDF）

Yan 演示：让 Agent 创建一个研究模板，前端可点 “Start Research” 触发 Agent 后端调用 browser。Agent 一边浏览 BBC 的 Anthropic 文章，一边实时更新 planning、source gathering、notes、summary 区域。

David 提议：

Add some more formatting or colors into the research output. Maybe we can convert it to PDF as well.

Agent 立刻添加 “Export to PDF” 按钮 + 格式化 + 表格 + 链接。

“这个 widget 不是预制的。其他 Agents 都是预制 UI 组件，Space Agent 从零创建。”

6.2 Persistence 持久化

刷新页面，所有 widgets 仍在。原理：Agent 不直接创建 widget，而是创建一个”能再次创建 widget 的函数”。函数被存储，重载时可重建相同的 widget。

6.3 Kanban 板（Trello 风格）

“Make it in the style of Trello and very colorful. We will be adding more features, so keep in mind to make it extensible.”

几分钟后看板出现，可拖动列、重命名 ticket。

6.4 股价图表

Nvidia, Apple, Alphabet (Google)

数据从 Yahoo Finance 抓取。关键优势：

“Agent 在你的浏览器里跑代码，不是数据中心。所以不会被 API 当作机器人 IP 屏蔽。”

6.5 贪吃蛇游戏

第一次失败（没有 food，没有 tail，键盘事件捕获错误）。Agent 自我承认并重做。

6.6 音乐 / Step Sequencer（20 分钟）

包含： - Step sequencer（一键生成） - 控制旋钮（saving/loading、tab length） - 吉他自由演奏区域 - 后加的 piano roll

第七阶段：理论与哲学

7.1 为什么选浏览器？

“如果要让用户简单使用，它必须跨平台、零安装。除了浏览器，没有其他平台能在所有系统上无安装运行。”

JavaScript runtime 在所有平台（包括移动）一致，HTML/CSS/JS 在标准化多年后高度统一。

7.2 Browser 自带 sandbox = 安全

浏览器不让网站碰你的文件，自带保护。代价：cross-origin 限制极多。 - Wikipedia 允许嵌入，Google/YouTube 全部禁止 - 解决方案：native app（Electron 绕过限制）+ Node.js 后端层做代理移除 CORS 头

7.3 三种部署方式

Demo 网站（不建议存重要数据，会被删除）
Native app（一切本地，最推荐）
自托管 VPS（支持多用户，含权限和分组）

7.4 服务器负载极低

“我们现在 demo 站有几百甚至上千用户，CPU 占用 2%、内存 6%。因为真正的工作发生在客户端。”

第八阶段：模块化与自我开发

“Agent 可以为自己创建模块。本地推理是一个模块，文件浏览器是一个模块。我可以为自己创建上千个模块，存在我的 user folder 里，不影响其他用户。”

8.1 与 Agent Zero 的对比

维度	Agent Zero	Space Agent
运行位置	Docker 容器（后端 Python）	浏览器 JS runtime（客户端）
长期任务	后台跑，不打扰用户	与用户协作，遇到 capture 会请用户解决
扩展性	插件系统，但有 Python 依赖冲突	模块系统，无依赖冲突
使用场景	后台多步任务、Linux 操作	动态 UI、监控、轻量任务

“大部分 Agent Zero 用户都会同时使用 Space Agent，两个目标不同。”

第九阶段：用 Codex 而非 Claude Code 开发

“我没写一行代码。Codex 构建了整个 codebase。”

Yan 的工作流： 1. 创建 root agents.md 文件作为文档框架 2. 每个模块都有自己的 agents.md 3. Agent 修改任何文件前，先读 agents.md 了解上下文 4. 任何更改同时更新对应 agents.md

“这不只是为 Space Agent。这是所有人未来都应该采用的方式——为 Agents 优化你的 codebase，文档里写一切，脑子里不要留任何 token。”

9.1 为什么 Codex 比 Claude Code 好

Yan 个人体验： - Codex 在跟随 agents.md 层级与一致更新文档方面远远更好 - Claude Code 经常忘了更新文档，自作主张 - 一次 Claude Code 花 2 小时迭代 20 次修一个 CSS 按钮对齐问题，每次说”修好了”实际没改 - $200 Codex 计划是 unlimited，$100 Claude Max plan 一天高强度就刷限额

David 的总结： - Claude 适合解释、聊天、起项目 - Codex 适合真正干活：复杂修改、大重构、严重 bug

第十阶段：Time Travel 与 Admin Mode

10.1 Git 仓库当时光机

“每个 user 目录和 group 目录都是独立的 git repository，自动跟踪所有变更。”

如果 Agent 把东西搞坏了： - 简单点点：“回退 2 小时”，所有变更撤销 - 可选择性还原单个 commit - 也可以回到”现在”重新前进

10.2 Admin Mode 救场

如果改坏 UI 让整个网站打不开： - 分屏视图：左侧固定的 admin 框架，右侧标准 Space Agent - 从 admin 这边可以让 Agent 修自己、用 time travel、管理模块 - admin 页面是 framework firmware 的一部分，永不变

“即使你完全搞坏，新窗口/标签打开时永远会问：进入 Space 还是 Admin Mode？”

第十一阶段：本地推理与最佳模型

11.1 本地推理面板

Space Agent 有专门的本地推理面板，可加载 Hugging Face 上 MLX 格式模型（约 1000+ 个）。

“你需要一块强 GPU。下载完后加载到内存很快。”

11.2 哪些模型实测最好

Yan 实验结果： - GPT 5.4 mini：响应快（300ms 收到 hi 的回复），但不够可靠 - Claude Sonnet：proactive，会主动展示功能 - Claude Opus：最稳定 - Gemma 4：本地可跑且表现达到 Sonnet 级别（最大惊喜）

核心要点速查表

概念	解释
Space Agent	浏览器内运行的自进化 Agent，由 Agent Zero 创始人开发
Spaces	工作空间，类似 desktop，可放多个 widgets
Widgets	Agent 按需生成的 UI 组件，函数化存储，可重建
Transient Context	放在最后一个 cache breakpoint 之后的快速变化数据，不破坏 cache
Browser Transcription	把 HTML 转换为带编号的可交互元素列表，Agent 用编号点击
MLX 格式	Apple Silicon 友好的本地推理模型格式
`agents.md`	每个模块/层级的文档文件，Agent 修改前必读
Time Travel	基于 Git 的全量回退机制
Admin Mode	防止 UI 完全搞坏时的修复入口

8 个实用启示

Agent 应该能控制自己运行所在的所有层：UI、后端、bridge 全可控才能真正解决问题。
Tokenomics 时代来临：模型越贵，harness 效率越关键，省 90% token 不是夸张。
Transient context 是长对话的解药：把易变数据放最后，避免 cache 被破坏。
Codebase 文档化优于聪明的提示：agents.md 层级让 Agent 永远知道为何这样做。
本地浏览器跑代码绕过数据中心 IP 封锁：解决了 VPS Agent 被各种 API 屏蔽的痛点。
持久化用”生成函数”而非”存 DOM”：刷新后用函数重建，比保存 HTML 健壮得多。
Time Travel 比修 bug 简单：搞坏了就回退，比让 Agent 修 Agent 高效。
Codex $200 比 Claude $100 Max 更划算：unlimited 比限额好太多，复杂活让 Codex 干。

10 个常见误区

以为 Agent 只能在云端运行：浏览器内运行解锁了完全不同的可能性。
以为 widget 必须是预制组件：Space Agent 全部从零生成。
以为 tool calling 必须用 JSON：纯文本 + 特殊 token 更高效。
以为长 context = 把一切都塞进 history：会破坏 cache 让成本暴涨。
以为 Codex 和 Claude Code 差不多：Yan 的实践证明 Codex 在长任务和文档跟随上明显更稳。
以为本地模型必然不如云端：Gemma 4 在 Space Agent 中表现达 Claude Sonnet 级别。
以为 web UI 自动化必须用图像识别：转录 + 编号方案更省 token 也更稳。
以为 Agent Zero 和 Space Agent 互斥：实际上互补，一个跑后台、一个跑前台。
以为系统提示词需要人手写：用 Codex 自动迭代 250 个版本远胜手写。
以为浏览器跨域问题是死路：native app + Node.js 代理可以绕过 CORS。

12 个关键要点

Space Agent 上线 25 天，已经超过 Agent Zero 当初一年的功能。
Space Agent 在 JavaScript runtime 运行，可直接 mutate 页面。
特殊 token 触发 JS 执行，2 token 开销，无 JSON 转义。
页面被转录成”button N / input N”格式给 Agent 用，每次操作约 19 tokens。
Transient context 放最后一个 cache breakpoint 之后，保护 cache 命中率。
widgets 持久化原理 = 存”再创建函数”，不是存 DOM 快照。
本地推理面板支持任何 MLX 格式 Hugging Face 模型。
agents.md 层级文档是 codebase-for-agents 的最佳实践。
每个 user/group 目录 = 独立 git repo，支持 time travel。
Admin Mode 是修复完全搞坏 UI 的最后入口。
Codex 在跟随复杂指令、维护文档方面优于 Claude Code（Yan 个人结论）。
Sonnet 与 Gemma 4 是 Space Agent 当前性价比最高的组合。

额外资源

资源	说明
space-agent.ai	官方网站，“Try Live Now” 一键体验
Space Agent GitHub	开源 repo，可自托管
Native App 下载	完全本地，数据不出本机
Agent Zero GitHub	后台型 Agent，Python + Docker
Codex（$200/月 unlimited）	Yan 主力开发工具
Open Router	一个 key 覆盖所有 LLM
MLX 模型仓库	Hugging Face 上 MLX 格式社区仓库
Discord / X	Space Agent 社区交流

结论

“我们大概只知道它 5% 的潜力。我玩了 4 周，还是每天发现新东西。这是一个全新范式。”

Space Agent 真正在做的不是”再造一个 Agent”，而是重新定义”应用程序” —— 未来的操作系统几乎不再有预设 UI 与内置应用，你告诉 Agent “查邮件按优先级显示”，它就重画一个窗口；要排序就告诉它，不需要按钮。这种 UI 即时生成、按需消亡的模式，配上 Time Travel 与 Admin Mode 的安全网，让 Agent 真正具备”自我编辑”的能力。如果你只想试一个工具，访问 space-agent.ai 点 Try Live Now，填入 Open Router key，五分钟内你会看到 25 年来 PC 范式第一次被真正撼动的样子。