频道:@DavidOndrej · 时长:38:54
| 项目 | 内容 |
|---|---|
| 视频标题 | Claude Code + Opus 4.7 = Ultimate Coding Agent |
| 视频ID | Tv3lIkbdAGc |
| 频道 | @DavidOndrej |
| 时长 | 38:54 |
| 主题 | Opus 4.7 发布 4 小时后的完整实测:基准、新 tokenizer、X-High reasoning、Claude Code 新功能、一发命中完整 FPS 游戏 |
| 视频链接 | https://www.youtube.com/watch?v=Tv3lIkbdAGc |
“Opus 4.7 是 Anthropic 当前能给我们用的最强模型。我刚拿到 4 小时就疯狂测试,还读完了 232 页的 system card。”
David 这期视频是 Opus 4.7 发布当天的深度测评。他覆盖了:Vibe Code
Bench 第一名、SWE-Bench Pro 涨 10%、新 tokenizer、X-High
reasoning、/ultra-review 新命令、视觉推理大涨
13%,以及他自己花 11 分钟让 Opus 4.7 一发命中完整 FPS 游戏的实战。
“如果你觉得这只是小幅度更新,再想一遍。它直接拿下 Vibe Code Bench 第一名。”
SWE-Bench Pro 涨 10-11%: - Opus 4.6、GPT 5.4、Gemini 3.1 都在相近水平 - Opus 4.7 是 step change
SWE-Bench Verified:类似跳跃幅度。
Terminal Bench 2.0:小幅但稳定提升。
Humanities Last Exam:略升。
Agentic Search:罕见地略降(4.7 在少数项上输给 4.6 的之一)。
Scaled Tool Use:略升。
Agentic Computer Use:大幅提升。
Agentic Financial Analysis:稳步提升。
Cybersecurity:4.7 反而比 4.6 差(David 推测是 Anthropic 故意 alignment)。
GPQA Diamond:明显提升(但 GPT 与 Gemini 数值更高)。
“视觉推理从 69% 提升到 82%。给它截图、UI,它的理解力大幅提升。”
含义: - 浏览器 navigation 任务变强 - 用户提供截图调试时更准 - GUI 自动化优势明显
GDP Val 是 OpenAI 自家定义的经济价值任务基准,Opus 4.7 在这个基准上直接碾压 GPT 5.4——这相当于打 OpenAI 的脸。
Vending Bench 测试模型经营自动售货机业务的能力: - Opus 4.7 是第一个一年内净利润超过 $10,000 的 AI 模型 - 第二名是 Opus 4.6
“如果你想把业务部分委托给 AI Model,Claude Opus 4.7 是目前最佳选择,毫无悬念。”
输入图像分辨率: - 旧:1500 像素 - 新:2500 像素 - 乘以宽高比,约 3 倍像素总量 - 无需训练改动就在 GUI / 图表任务上拿到大幅提升
每百万 input/output token 价格与 4.6 完全相同: - $5 per million input - $25 per million output
“Opus 4.7 同样任务会用更多 token,1.0 到 1.35 倍之间,有人甚至报告 50%。”
English prompts 的实测: - 平均成本 +20% 到 60% - 有 case 高达 +59%
OpenAI 与 Google 2024 年已把 tokenizer 词表从 ~100k 升级到 ~200k。Anthropic 现在跟上: - 大词表 = 更新模型 - 暗示 Opus 4.7 是从头预训练的全新模型,不是 4.6 的 fine-tune - 给 AI 行业积极信号:scaling 没撞墙
“在很多任务上反而更高效。Steve Yipe 测试生成一棵树,4.7 比 4.6 更快,graphics 也更好。”
原因: - 思考时间显著缩短 - 简单任务不浪费 reasoning token - 与 GPT-5.1 的”动态投入”思路一致
Claude.ai 网站打开 Opus 4.7 后,开启 Adaptive Thinking toggle: - 之前叫 Extended Thinking - 现在叫 Adaptive Thinking - 默认不思考,按需触发
“Anthropic 不想发布 Mythos——他们最强的模型,大概 10 万亿参数。”
David 暗示:算力紧张是核心原因。
Stella Lorenzo(AMD AI Director)的研究: - 7,000 个 Claude Code session 数据分析 - 可见 reasoning 长度:March 8 前 2,200 字符 → March 8 后 600 字符 - 代码 reads 次数:6.6 次 → 2 次(每次编辑前的研究下降 70%) - Stop hook violations:以前 0 → March 8 后 每天 10 次 - 同一简单任务 API call 数:March 8 后 多 80 倍
“一些每周交付 200,000 行代码的 multi-agent workflow,March 8 后变得完全非功能。”
David 画了张图: - 4.5 发布时性能尖峰,然后慢慢下滑 - 4.6 发布时尖峰,然后慢慢下滑 - 4.7 发布时尖峰 - 看上去新模型比旧模型大幅领先,实际是旧模型被人为压制
“这是 AI labs 在暗地里做的。他们从不官方公布。但越来越多人在数据上证实。”
“估计 1-3 周内 OpenAI 会发新模型。代号 Spud,可能叫 GPT 5.5。传闻在 Mythos 水平。”
含义: - Opus 4.7 在 1-2T 参数级别是最强 - 但 Mythos 与 Spud 在 10T 参数级别 - 接下来几周 AI 战场会非常精彩
/fast 仅 4.6 可用“/fast 现在只能用 Opus 4.6。如果你要用 Opus 4.7,就没 fast mode。”
预期: - Anthropic 大概 1-4 周内把 fast mode 加到 4.7 - 这是大收入来源(fast mode 双倍计费)
/effort 新档位/effort
# low / medium / high / x-high / max
ultra think 关键词ultra think
附在 prompt 末尾,将单次 turn 的 effort 设为 high(David 测试显示 max?输出可能不一致,行为正在演变)。
/ultra-review 新命令/ultra-review
更好的文件系统持久化记忆,对 agentic 长 workflow 大有帮助。
“默认状态下话特别多。即使你说 ‘be shorter’,它还是给很长的回答。”
David 推测与新 tokenizer 有关。
旧 4.6 prompt 在 4.7 上可能 break: - 需要更明确说明”你想要什么、为什么” - 模糊指令不再容忍
“Opus 4.7 对 prompt injection 的鲁棒性接近 Mythos。这对 OpenClaw、Agent Zero、Hermes Agent 等 personal Agent 极其重要。”
之前 4.6 在安全 prompt 上误拒,4.7 大幅减少误拒。
David 让 Opus 4.7 自己评 Boris 的回应,结果:“The honest reading is half legit, half cope.”
“Needle 检索确实是长上下文工作的弱代理,但 Anthropic 在模型这项变差时正好弃用这个基准,这很方便。”
System card 揭示:Opus 4.7 在 21% 的对话中明确意识到自己被评估(Opus 4.6 是 0%)。
“无论你怎么看待 AI 意识,这是一个值得关注的 emergent property,跟 Mythos 一样。”
David 现场查 Anthropic API spending: - 当月已花 ~$3,000(仍在月中) - 按 run rate 估算 ~$6,000/月 - Open Router 上另有 ~$2,000/月 - 个人总计约 $7,000-$8,000/月
“我在等 Anthropic 把 fast mode 加到 4.7,到时候我会花更多钱,但能 ship 更多软件。”
新建项目文件夹,Cursor 内置终端:
claude --dangerously-skip-permissions
/model # 选 Opus 4.7
/effort # 选 X-High确认 1M context 开启,但没有 fast mode。
David 截图一个 FPS 游戏推文,粘进 Claude Code:
Your task is to build a full FPS game in the browser with multiple different weapons, all inside of a single HTML file. Then tell me how to run it.
X-High effort 下 Opus 4.7 思考了 5 分钟以上才开始 tool call: - David 担心模型卡住 - 同时再开两个 Claude Code 跑同 prompt:一个 high,一个 medium - 怀疑 X-High 是不是出问题
“它跑了 11 分钟。突然 boom,2000 行代码出现。Opus 4.6 在我每天大量使用下,从来没跑过 11 分钟。”
提示这是 Anthropic 在向 Codex 学习:让模型在单任务上跑更久 → 更复杂的 refactor、更严重的 bug 都能 handle。
打开生成的 HTML 文件,名字叫 “Tactical Strike”: - 单文件浏览器 FPS - 6 种武器(手枪、狙击、霰弹、Uzi、火箭筒等) - WASD 移动、鼠标瞄准、Click 射击 - Shift 冲刺、Space 跳跃、R 装弹、1-6 切换武器
实测发现: - 声音难听到不可忍受(短促 beep) - 立刻让 Claude Code 关掉声音 - 3D 渲染惊人:纯单 HTML 文件,没用外部资源 - 狙击 zoom 不太好用(David 怀疑是他自己瞄不准) - 火箭筒 one-shot 敌人 - 难度逐波递增(progressive waves) - 血量看不到回升
“Opus 4.6 永远不可能为这种任务跑 11 分钟。这是 Anthropic 给 Codex 的回应——让单任务跑更久。”
“11 分钟一发命中带有 6 种武器、3D 渲染、波次系统、平衡难度的 FPS。我真的不知道说什么。这些模型变得太强了。”
David 同时跑了多个 Claude Code,结果其中一个不小心 RM 删了 HTML 文件。教训: - 同目录跑多个 Agent 风险大 - 各自独立文件夹更安全
David 顺便强调他基本上所有项目都用 Superbase: - 全开源 Postgres + Auth + Storage - Row Level Security 让 AI 写的代码默认安全 - AI Agent(Claude Code 与 Opus 4.7)非常熟悉 Superbase 文档 - 一个 dashboard 管 Database、Auth(GitHub、Google、Slack、Spotify、Notion 等)、SQL Editor、Index、Monitoring - 免费层够大部分项目用
| 概念 | 解释 |
|---|---|
| Opus 4.7 | Anthropic 当前最强公开模型 |
| Vibe Code Bench | 测试 web app 从零构建能力的基准 |
| SWE-Bench Pro | Opus 4.7 +10-11% 大幅领先 |
| 新 Tokenizer | 词表升级,token 用量 +20-60%,但 reasoning 更短 |
| Adaptive Thinking | 取代 Extended Thinking,按需启用 |
/effort |
low/medium/high/X-high/max |
/ultra-review |
5-10 分钟自审,$5-$20 |
ultra think |
prompt 末尾关键词强制最高 effort |
| Mythos | Anthropic 未发布的 ~10T 模型 |
| Spud | OpenAI 传闻在准备的 Mythos 杀手 |
| Vending Bench | 第一个净利润破万的 AI Model |
--dangerously-skip-permissions:否则每个 tool call
都要按 Enter,超烦。ultra think
关键词适合单次重活:不需要全局 /effort 提升。/ultra-review 用在大 PR 前:5-10
分钟换一次深度审查。/effort
五档:low、medium、high、X-high、max。/ultra-review:5-10
分钟自审,$5-$20。| 资源 | 说明 |
|---|---|
| Claude Code | npm install -g @anthropic-ai/claude-code |
| Anthropic API | 直接付费访问 4.7 |
| Open Router | 多模型路由,含 Opus 4.7 |
| Claude.ai 网站 | 启用 Adaptive Thinking 开关 |
| Superbase | 全栈 backend(Postgres+Auth+Storage) |
| System Card(232 页) | Anthropic 官方完整发布文档 |
| Stella Lorenzo(AMD AI Director) | March 8 降级研究作者 |
| Boris Cherny | Claude Code 创建者,NIAH 反驳 |
“好吧,我说 Anthropic 干得漂亮。我会把我所有 AI Agent 切到 Opus 4.7,因为它确实是 Opus 4.6 的大改进。我大概会花更多钱,但至少能 ship epic software。”
Opus 4.7 不是简单 incremental update,是 Anthropic
在算力紧张、口碑承压下抛出的”保底”模型——长任务能跑 11 分钟、视觉推理跳
13%、prompt injection 抗性接近 Mythos。代价是新 tokenizer 让你多花
20-60% token、暂无 fast mode、NIAH 退步。但对所有 Agent
工作流来说,这仍是当下最强公开选项。下一个 1-3 周看 OpenAI Spud
/ Anthropic Mythos,AI 战场即将进入新一轮重排。现在就把工作流切到 4.7 +
Claude Code + Adaptive Thinking +
/effort high,准备迎接下一波。