频道:@DavidOndrej · 时长:32:30
| 项目 | 内容 |
|---|---|
| 视频标题 | OpenAI shipped the Mythos killer (GPT 5.5) |
| 视频ID | T_xyhjfFCdY |
| 频道 | @DavidOndrej |
| 时长 | 32:30 |
| 主题 | GPT 5.5 发布几分钟后,David 在 Codex 中实测它构建 unicorn SVG、Doom 风格 macOS 游戏、3D dungeon arena 三个项目,并分析 Anthropic 的算力危机 |
| 视频链接 | https://www.youtube.com/watch?v=T_xyhjfFCdY |
“OpenAI 刚刚在几分钟前发布了 GPT 5.5。据说它在 Claude Mythos 水平上。区别在于:Anthropic 的 Mythos 你拿不到,GPT 5.5 现在就能用。”
David 在视频发布几分钟内拿到 GPT 5.5,立刻在 Codex 里同时跑三个项目测试。他还分析了为什么 GPT 5.5 可能开启”OpenAI 反超 Anthropic 之年”——Anthropic 正陷入算力危机,Opus 4.6 与 4.7 都出现”用着变差”的口碑。
“Opus 4.7 是 Anthropic 过去两年里第一个让大家觉得变差的模型。这是前所未有的。”
David 的核心观察: - 用户广泛反馈 Opus 4.7 “不听指令” - 在 benchmark 上比 4.6 好,但实际使用体验更差 - David 自己每次开 Claude Code 默认仍然选 4.6 fast - 主要因素:4.7 没有 fast mode
Anthropic 创始人 Dario Amodei “保守而稳健”,对算力投入相对保守。结果: - 2026 Q1 增长爆炸 → 算力严重不足 - Claude.ai、Claude Code、API 用量限制频频触发 - 用户使用极速逼近限额 - 模型质量在”模型推出后逐渐变差”的模式被怀疑是有意降级
OpenAI 在数据中心 / compute 上的投入远超 Anthropic: - 2026 年算力优势明显 - GPT 5.5 是这个优势的第一波”反击” - “如果传闻属实,Spud(GPT 5.5 内部代号)就是 Mythos 级别”
David 引用官方文章:
“Larger, more capable models are often slower to serve, but GPT 5.5 matches GPT 5.4 per-token latency in real-world serving while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same correct task.”
这是对 Anthropic 的两记重击: 1. 同样延迟,更高智能:暗示 Anthropic 的新模型推理变慢。 2. 更少 token 完成同样任务:直接对标 Opus 4.7 新 tokenizer 的”token 通胀”问题。
David 觉得官方公布的 benchmark “有点 dirty”: - 没有列 SWE-Bench Verified(Opus 4.7 占优) - 用了 Opus 4.7 没有的小众基准(Tool-of-4、Cyber-Gym) - GDP Val、Terminal Bench、Browse Comp、Frontier Math 大幅领先 Opus
成绩亮点: - Terminal Bench:碾压 Opus 4.7 - GDP Val(经济价值任务):胜 - Frontier Math:大幅领先 - OS World Verified:勉强领先 - 1M context + MRCR:大跃迁,明显优于 GPT 5.4 与 Opus
“这是为什么你必须给 AI 付费。无论是 ChatGPT、Claude 还是 Perplexity,付一个就行。”
David 直接把 OpenAI 官网整个 5.5 介绍页粘进 ChatGPT 5.5 thinking 模式:
Give me a concise summary of the most interesting points about this new GPT 5.5 model and especially what is unusual or new about this model compared to other cutting edge AI model releases. Be very concise.
输出比 GPT 5.4 显著更易读、格式更清晰,让 David 第一感觉就比 5.4 顺手。
5.5 自己总结自己的特点: - 定位”具备 agentic 能力的工作模型”而非”更聪明的聊天机器人” - 核心声明:更擅长拆解混乱任务、规划与工具使用 - Coding 跳跃明显,尤其长视野编码 - 长上下文显著进步(API 支持 1M) - Pro 模式针对高准确度专业工作 - 强化了”科学研究能力”
David 强调标准配置: - Permissions: Full Access(不要用 default) - Model: GPT 5.5(其他选项纯属浪费) - Reasoning: 默认 medium(X-high 适合修深 bug 与大重构) - Speed: Fast(消耗限额快,但 $200 Pro 计划无所谓)
David 截取一张高质量 unicorn SVG 推文截图:
Recreate this unicorn exactly as on the image attached.
放在新文件夹 /unicorn 里跑。
结果: - index.html 一次成型,自动检测并修复初始颜色缺失 - 总耗时 ~2 分 40 秒(medium effort) - David 全屏对比原图:“几乎一模一样!” - 仅用一张截图就还原 SVG 这一点令 David 印象深刻
$image-gen
技能生成素材“你可以在 Codex 中用
$符号触发 skills,比如$image-gen、$computer-use、$playwright。”
David 的 prompt(在 /doom-style-game 文件夹):
Use $image-gen skill to image-gen sprites and build the macOS app for a library game. Use $computer-use, $playwright CLI skill to debug and test the app and launch it for me in the terminal.
Codex 自动: 1. 调用 GPT Images 2 生成游戏 sprite(怪物、墙体材质) 2. 写 SwiftUI 代码(labyrinth crawler + first-person quarter rendering) 3. 用 Playwright 自动测试游戏机制 4. 反复测试直到通过
Codex 的优势: - 可 pin chat 到左边栏当 favorite - 内置 Git work trees - 可同时跑多个 thread 互不干扰 - David 同时跑了 unicorn + Doom + 3D dungeon + SVG 四个任务
来源:用户 Emily 发的高难度 prompt,要求生成一张实验室风格的彩绘玻璃 SVG。
David 在新 thread /svg 文件夹用 medium effort 跑。
David 在 /3D-dungeon 用 high effort
跑:
Build a full playable 3D prototype game in the same visual style as reference screenshot. Use $image-gen skill to generate all the graphics assets and textures. Do your best work to implement all the details below. Get to work and build this 3D game end-to-end, then launch it.
Codex 自动: - 调用 GPT Images 2 生成大量游戏素材(cobblestone 纹理、怪物像素艺术) - 每次素材生成需 30-60 秒,整体拖慢 - 中途用 Playwright 自我测试 - 多次自动 fix bug
David 现场观察:
“It used the Playwright skill and found some issues and now it’s fixing them by itself.”
Codex 跑多次自测,发现 bug 后自动修,完全无需人为介入。
“我希望 2024 年我在搭 Vectal 时有这种工具。当时只有 Sonnet 3.5,没有 Claude Code 也没有 Codex,模型根本无法测试你的 app。这是革命性的。”
来自一条推文:物理仿真展示用 GPT 5.5。
David 复刻: - 国旗带 turbulence + stiffness 参数滑块 - 实时调整风速可见反应 - David 感觉:“物理效果可能比推文还好”
“首次印象,它确实是个更好的模型。问题是好多少。我们会拭目以待,因为我不想 overhype。”
真正的考验: - 在 OpenClaw、Hermes Agent 等 Agent 框架中表现 - 长期 workflow / 自动化中的稳定性 - 与 Claude Opus 4.7 在不同任务上的细分对比
$image-gen:触发图像生成$computer-use:让 Agent 操作 GUI$playwright:浏览器自动化与测试| 概念 | 解释 |
|---|---|
| GPT 5.5 | OpenAI 最新模型,定位 agentic working model |
| GPT 5.5 Pro | 高准确度专业模式,长时推理 |
| Codex | OpenAI 官方编码 Agent,含 web UI |
| Skills($image-gen 等) | Codex 中可用 `$` 触发的内置技能 | |
| 1M context | API 支持的上下文长度 |
| MRCR | Multi-round Coreference Resolution,长上下文检索基准 |
| Git Work Trees | Codex 内建多分支并行机制 |
| Spud | GPT 5.5 的传闻代号 |
| Mythos | Anthropic 未公开的大模型(10T 参数级) |
$
触发技能:image-gen、computer-use、Playwright 串联。| 资源 | 说明 |
|---|---|
| ChatGPT Plus/Pro | 接入 GPT 5.5 的最低门槛订阅 |
| Codex(OpenAI 官方 IDE) | 唯一能玩转 5.5 全能力的 Agent 工作站 |
| GPT Images 2 | 5.5 内置 image-gen 调用的图像模型 |
| Playwright | 浏览器自动化测试 |
| Open Router | 等 5.5 上线后可作为接入备选 |
| Claude Opus 4.7 | 写图像/视频 prompt 仍然有优势 |
“首次印象,它确实是个更好的模型。问题是好多少。真实考验不是基准也不是首日印象,而是它如何融入你的工作流、自动化、AI Agents。这需要几天看清。”
GPT 5.5 不是另一次 incremental 更新——它是 OpenAI 算力优势第一次在面对 Anthropic 时具象化为产品。Anthropic 正面临前所未有的”质量退步”质疑,Opus 4.7 没有 fast mode、新 tokenizer 让成本变高,全球用户开始重新评估付哪家。如果接下来 2-3 周 OpenAI 维持这个节奏,2026 可能真的成为 GPT 重新统治的一年。现在最理性的策略:付费两家,平行测试,把不同 task 路由到各自最强的模型。