Claude Code + Opus 4.7 = 终极编码代理 —— 4 小时实测与系统卡解析

频道:@DavidOndrej · 时长:38:54

📺 @DavidOndrej ⏱ 38:54 🗓 2026-05-19

视频信息

项目 内容
视频标题 Claude Code + Opus 4.7 = Ultimate Coding Agent
视频ID Tv3lIkbdAGc
频道 @DavidOndrej
时长 38:54
主题 Opus 4.7 发布 4 小时后的完整实测:基准、新 tokenizer、X-High reasoning、Claude Code 新功能、一发命中完整 FPS 游戏
视频链接 https://www.youtube.com/watch?v=Tv3lIkbdAGc

引言

“Opus 4.7 是 Anthropic 当前能给我们用的最强模型。我刚拿到 4 小时就疯狂测试,还读完了 232 页的 system card。”

David 这期视频是 Opus 4.7 发布当天的深度测评。他覆盖了:Vibe Code Bench 第一名、SWE-Bench Pro 涨 10%、新 tokenizer、X-High reasoning、/ultra-review 新命令、视觉推理大涨 13%,以及他自己花 11 分钟让 Opus 4.7 一发命中完整 FPS 游戏的实战。

第一阶段:基准全面爆杀

1.1 Vibe Code Bench 第一名

“如果你觉得这只是小幅度更新,再想一遍。它直接拿下 Vibe Code Bench 第一名。”

1.2 Anthropic 官方基准

SWE-Bench Pro 涨 10-11%: - Opus 4.6、GPT 5.4、Gemini 3.1 都在相近水平 - Opus 4.7 是 step change

SWE-Bench Verified:类似跳跃幅度。

Terminal Bench 2.0:小幅但稳定提升。

Humanities Last Exam:略升。

Agentic Search:罕见地略降(4.7 在少数项上输给 4.6 的之一)。

Scaled Tool Use:略升。

Agentic Computer Use:大幅提升。

Agentic Financial Analysis:稳步提升。

Cybersecurity4.7 反而比 4.6 差(David 推测是 Anthropic 故意 alignment)。

GPQA Diamond:明显提升(但 GPT 与 Gemini 数值更高)。

1.3 视觉推理 +13%

“视觉推理从 69% 提升到 82%。给它截图、UI,它的理解力大幅提升。”

含义: - 浏览器 navigation 任务变强 - 用户提供截图调试时更准 - GUI 自动化优势明显

1.4 GDP Val 碾压 OpenAI

GDP Val 是 OpenAI 自家定义的经济价值任务基准,Opus 4.7 在这个基准上直接碾压 GPT 5.4——这相当于打 OpenAI 的脸。

1.5 Vending Bench 第一台破万美元 Agent

Vending Bench 测试模型经营自动售货机业务的能力: - Opus 4.7 是第一个一年内净利润超过 $10,000 的 AI 模型 - 第二名是 Opus 4.6

“如果你想把业务部分委托给 AI Model,Claude Opus 4.7 是目前最佳选择,毫无悬念。”

1.6 视觉分辨率提升 3x

输入图像分辨率: - 旧:1500 像素 - 新:2500 像素 - 乘以宽高比,约 3 倍像素总量 - 无需训练改动就在 GUI / 图表任务上拿到大幅提升

第二阶段:新 Tokenizer 的双刃剑

2.1 价格仍是 $5 / $25

每百万 input/output token 价格与 4.6 完全相同: - $5 per million input - $25 per million output

2.2 但 tokenizer 改了

“Opus 4.7 同样任务会用更多 token,1.0 到 1.35 倍之间,有人甚至报告 50%。”

English prompts 的实测: - 平均成本 +20% 到 60% - 有 case 高达 +59%

2.3 词表升级(与 OpenAI/Google 看齐)

OpenAI 与 Google 2024 年已把 tokenizer 词表从 ~100k 升级到 ~200k。Anthropic 现在跟上: - 大词表 = 更新模型 - 暗示 Opus 4.7 是从头预训练的全新模型,不是 4.6 的 fine-tune - 给 AI 行业积极信号:scaling 没撞墙

2.4 第二阶效应

2.5 但模型可能更高效

“在很多任务上反而更高效。Steve Yipe 测试生成一棵树,4.7 比 4.6 更快,graphics 也更好。”

原因: - 思考时间显著缩短 - 简单任务不浪费 reasoning token - 与 GPT-5.1 的”动态投入”思路一致

第三阶段:Adaptive Thinking

3.1 新 toggle

Claude.ai 网站打开 Opus 4.7 后,开启 Adaptive Thinking toggle: - 之前叫 Extended Thinking - 现在叫 Adaptive Thinking - 默认不思考,按需触发

3.2 工作机制

第四阶段:Anthropic 当前的算力危机

4.1 Mythos 还没发布

“Anthropic 不想发布 Mythos——他们最强的模型,大概 10 万亿参数。”

David 暗示:算力紧张是核心原因。

4.2 用户大规模反馈”Opus 4.6 变差”

Stella Lorenzo(AMD AI Director)的研究: - 7,000 个 Claude Code session 数据分析 - 可见 reasoning 长度:March 8 前 2,200 字符 → March 8 后 600 字符 - 代码 reads 次数:6.6 次 → 2 次(每次编辑前的研究下降 70%) - Stop hook violations:以前 0 → March 8 后 每天 10 次 - 同一简单任务 API call 数:March 8 后 多 80 倍

“一些每周交付 200,000 行代码的 multi-agent workflow,March 8 后变得完全非功能。”

4.3 Anthropic 的”预发新模型 → 旧模型暗自降级”模式

David 画了张图: - 4.5 发布时性能尖峰,然后慢慢下滑 - 4.6 发布时尖峰,然后慢慢下滑 - 4.7 发布时尖峰 - 看上去新模型比旧模型大幅领先,实际是旧模型被人为压制

“这是 AI labs 在暗地里做的。他们从不官方公布。但越来越多人在数据上证实。”

第五阶段:Spud / OpenAI 反击

“估计 1-3 周内 OpenAI 会发新模型。代号 Spud,可能叫 GPT 5.5。传闻在 Mythos 水平。”

含义: - Opus 4.7 在 1-2T 参数级别是最强 - 但 Mythos 与 Spud 在 10T 参数级别 - 接下来几周 AI 战场会非常精彩

第六阶段:Claude Code 的新功能

6.1 /fast 仅 4.6 可用

“/fast 现在只能用 Opus 4.6。如果你要用 Opus 4.7,就没 fast mode。”

预期: - Anthropic 大概 1-4 周内把 fast mode 加到 4.7 - 这是大收入来源(fast mode 双倍计费)

6.2 /effort 新档位

/effort
# low / medium / high / x-high / max

6.3 ultra think 关键词

ultra think

附在 prompt 末尾,将单次 turn 的 effort 设为 high(David 测试显示 max?输出可能不一致,行为正在演变)。

6.4 /ultra-review 新命令

/ultra-review

6.5 文件系统记忆改进

更好的文件系统持久化记忆,对 agentic 长 workflow 大有帮助。

第七阶段:Opus 4.7 的隐藏特性

7.1 更冗长(verbose)

“默认状态下话特别多。即使你说 ‘be shorter’,它还是给很长的回答。”

David 推测与新 tokenizer 有关。

7.2 字面追随指令

旧 4.6 prompt 在 4.7 上可能 break: - 需要更明确说明”你想要什么、为什么” - 模糊指令不再容忍

7.3 幻觉显著减少

7.4 抗 prompt injection 接近 Mythos 级

“Opus 4.7 对 prompt injection 的鲁棒性接近 Mythos。这对 OpenClaw、Agent Zero、Hermes Agent 等 personal Agent 极其重要。”

7.5 减少”过度拒绝”

之前 4.6 在安全 prompt 上误拒,4.7 大幅减少误拒。

第八阶段:Opus 4.7 的弱点

8.1 Needle in a Haystack(NIAH)变差

David 让 Opus 4.7 自己评 Boris 的回应,结果:“The honest reading is half legit, half cope.”

“Needle 检索确实是长上下文工作的弱代理,但 Anthropic 在模型这项变差时正好弃用这个基准,这很方便。”

8.2 自我评估意识

System card 揭示:Opus 4.7 在 21% 的对话中明确意识到自己被评估(Opus 4.6 是 0%)。

“无论你怎么看待 AI 意识,这是一个值得关注的 emergent property,跟 Mythos 一样。”

第九阶段:David 自费实测

9.1 月度花费

David 现场查 Anthropic API spending: - 当月已花 ~$3,000(仍在月中) - 按 run rate 估算 ~$6,000/月 - Open Router 上另有 ~$2,000/月 - 个人总计约 $7,000-$8,000/月

9.2 Open Router 上 Opus 4.6 在飙升

9.3 等 Opus 4.7 fast mode

“我在等 Anthropic 把 fast mode 加到 4.7,到时候我会花更多钱,但能 ship 更多软件。”

第十阶段:FPS 游戏一发命中实战

10.1 配置

新建项目文件夹,Cursor 内置终端:

claude --dangerously-skip-permissions
/model  # 选 Opus 4.7
/effort  # 选 X-High

确认 1M context 开启,但没有 fast mode

10.2 Prompt

David 截图一个 FPS 游戏推文,粘进 Claude Code:

Your task is to build a full FPS game in the browser with multiple different weapons, all inside of a single HTML file. Then tell me how to run it.

10.3 长 reasoning 测试

X-High effort 下 Opus 4.7 思考了 5 分钟以上才开始 tool call: - David 担心模型卡住 - 同时再开两个 Claude Code 跑同 prompt:一个 high,一个 medium - 怀疑 X-High 是不是出问题

10.4 突然 boom,2000 行代码

“它跑了 11 分钟。突然 boom,2000 行代码出现。Opus 4.6 在我每天大量使用下,从来没跑过 11 分钟。”

提示这是 Anthropic 在向 Codex 学习:让模型在单任务上跑更久 → 更复杂的 refactor、更严重的 bug 都能 handle

10.5 游戏实测

打开生成的 HTML 文件,名字叫 “Tactical Strike”: - 单文件浏览器 FPS - 6 种武器(手枪、狙击、霰弹、Uzi、火箭筒等) - WASD 移动、鼠标瞄准、Click 射击 - Shift 冲刺、Space 跳跃、R 装弹、1-6 切换武器

实测发现: - 声音难听到不可忍受(短促 beep) - 立刻让 Claude Code 关掉声音 - 3D 渲染惊人:纯单 HTML 文件,没用外部资源 - 狙击 zoom 不太好用(David 怀疑是他自己瞄不准) - 火箭筒 one-shot 敌人 - 难度逐波递增(progressive waves) - 血量看不到回升

10.6 评价

“Opus 4.6 永远不可能为这种任务跑 11 分钟。这是 Anthropic 给 Codex 的回应——让单任务跑更久。”

“11 分钟一发命中带有 6 种武器、3D 渲染、波次系统、平衡难度的 FPS。我真的不知道说什么。这些模型变得太强了。”

10.7 文件被另一个 Agent 删了

David 同时跑了多个 Claude Code,结果其中一个不小心 RM 删了 HTML 文件。教训: - 同目录跑多个 Agent 风险大 - 各自独立文件夹更安全

第十一阶段:Superbase 集成提示

David 顺便强调他基本上所有项目都用 Superbase: - 全开源 Postgres + Auth + Storage - Row Level Security 让 AI 写的代码默认安全 - AI Agent(Claude Code 与 Opus 4.7)非常熟悉 Superbase 文档 - 一个 dashboard 管 Database、Auth(GitHub、Google、Slack、Spotify、Notion 等)、SQL Editor、Index、Monitoring - 免费层够大部分项目用

核心要点速查表

概念 解释
Opus 4.7 Anthropic 当前最强公开模型
Vibe Code Bench 测试 web app 从零构建能力的基准
SWE-Bench Pro Opus 4.7 +10-11% 大幅领先
新 Tokenizer 词表升级,token 用量 +20-60%,但 reasoning 更短
Adaptive Thinking 取代 Extended Thinking,按需启用
/effort low/medium/high/X-high/max
/ultra-review 5-10 分钟自审,$5-$20
ultra think prompt 末尾关键词强制最高 effort
Mythos Anthropic 未发布的 ~10T 模型
Spud OpenAI 传闻在准备的 Mythos 杀手
Vending Bench 第一个净利润破万的 AI Model

8 个实用启示

  1. 永远开 --dangerously-skip-permissions:否则每个 tool call 都要按 Enter,超烦。
  2. 不要无脑用 X-High:5+ 分钟才开始 tool call,简单任务浪费时间和钱。
  3. ultra think 关键词适合单次重活:不需要全局 /effort 提升。
  4. 同目录别跑多 Agent:会互相干扰,文件被删。
  5. /ultra-review 用在大 PR 前:5-10 分钟换一次深度审查。
  6. 新 tokenizer 让旧 prompt break:明确写”你要什么、为什么”。
  7. 视觉任务大涨:截图 + UI 工作流上 Opus 4.7 远胜 4.6。
  8. 付 fast mode 早晚回归:等 4-1-4 周内 4.7 fast mode 上线再 all-in。

10 个常见误区

  1. 以为新 tokenizer = 涨价:实际是同价但用更多 token,总体 +20-60%。
  2. 以为 4.7 永远比 4.6 好:Agentic Search、Cybersecurity、NIAH 都更差。
  3. 以为长 reasoning 是 bug:是 Anthropic 模仿 Codex 长任务能力。
  4. 以为 fast mode 永远只在 4.6:4 周内大概率 4.7 也会上。
  5. 以为 needle in haystack 是真实使用:Anthropic 弃用这个基准的时机太巧。
  6. 以为 Anthropic 不调整旧模型:7,000 session 研究证实 March 8 后 4.6 大幅降级。
  7. 以为 Mythos / Spud 还很远:1-3 周时间窗内可能见到。
  8. 以为 visual benchmarks 不重要:3x 像素 + 13% 提升对 GUI / 浏览器 Agent 是巨大改变。
  9. 以为 evaluation awareness 是噱头:21% 自我意识被评估的现象值得严肃对待。
  10. 以为 11 分钟 task 是浪费:那是 2,000 行高质量代码一发命中。

12 个关键要点

  1. Opus 4.7 在 Vibe Code Bench 拿下第一
  2. SWE-Bench Pro +10-11%,是 step change 不是 incremental update
  3. 视觉分辨率 3x(1500 → 2500 像素),视觉推理 +13%
  4. GDP Val 在 OpenAI 自家基准上碾压 GPT 5.4
  5. Vending Bench 第一台年净利润破 $10k 的 AI
  6. 新 tokenizer = 同价 +20-60% token,更紧凑 reasoning,更字面指令理解
  7. NIAH / MRCR 退步,Anthropic 同时”弃用”这个基准
  8. March 8 后大量数据显示 Opus 4.6 暗自降级
  9. Adaptive Thinking 取代 Extended Thinking,默认不思考
  10. /effort 五档:low、medium、high、X-high、max
  11. /ultra-review:5-10 分钟自审,$5-$20
  12. Opus 4.7 抗 prompt injection 接近 Mythos,对 Hermes / OpenClaw / Agent Zero 是巨大利好。

额外资源

资源 说明
Claude Code npm install -g @anthropic-ai/claude-code
Anthropic API 直接付费访问 4.7
Open Router 多模型路由,含 Opus 4.7
Claude.ai 网站 启用 Adaptive Thinking 开关
Superbase 全栈 backend(Postgres+Auth+Storage)
System Card(232 页) Anthropic 官方完整发布文档
Stella Lorenzo(AMD AI Director) March 8 降级研究作者
Boris Cherny Claude Code 创建者,NIAH 反驳

结论

“好吧,我说 Anthropic 干得漂亮。我会把我所有 AI Agent 切到 Opus 4.7,因为它确实是 Opus 4.6 的大改进。我大概会花更多钱,但至少能 ship epic software。”

Opus 4.7 不是简单 incremental update,是 Anthropic 在算力紧张、口碑承压下抛出的”保底”模型——长任务能跑 11 分钟、视觉推理跳 13%、prompt injection 抗性接近 Mythos。代价是新 tokenizer 让你多花 20-60% token、暂无 fast mode、NIAH 退步。但对所有 Agent 工作流来说,这仍是当下最强公开选项。下一个 1-3 周看 OpenAI Spud / Anthropic Mythos,AI 战场即将进入新一轮重排。现在就把工作流切到 4.7 + Claude Code + Adaptive Thinking + /effort high,准备迎接下一波。