OpenAI 发布 Mythos 杀手 —— GPT 5.5 实测与解析

视频信息

项目	内容
视频标题	OpenAI shipped the Mythos killer (GPT 5.5)
视频ID	T_xyhjfFCdY
频道	@DavidOndrej
时长	32:30
主题	GPT 5.5 发布几分钟后，David 在 Codex 中实测它构建 unicorn SVG、Doom 风格 macOS 游戏、3D dungeon arena 三个项目，并分析 Anthropic 的算力危机
视频链接	https://www.youtube.com/watch?v=T_xyhjfFCdY

引言

“OpenAI 刚刚在几分钟前发布了 GPT 5.5。据说它在 Claude Mythos 水平上。区别在于：Anthropic 的 Mythos 你拿不到，GPT 5.5 现在就能用。”

David 在视频发布几分钟内拿到 GPT 5.5，立刻在 Codex 里同时跑三个项目测试。他还分析了为什么 GPT 5.5 可能开启”OpenAI 反超 Anthropic 之年”——Anthropic 正陷入算力危机，Opus 4.6 与 4.7 都出现”用着变差”的口碑。

第一阶段：Anthropic 的算力危机

1.1 Opus 4.7 的口碑暴跌

“Opus 4.7 是 Anthropic 过去两年里第一个让大家觉得变差的模型。这是前所未有的。”

David 的核心观察： - 用户广泛反馈 Opus 4.7 “不听指令” - 在 benchmark 上比 4.6 好，但实际使用体验更差 - David 自己每次开 Claude Code 默认仍然选 4.6 fast - 主要因素：4.7 没有 fast mode

1.2 算力问题的根源

Anthropic 创始人 Dario Amodei “保守而稳健”，对算力投入相对保守。结果： - 2026 Q1 增长爆炸 → 算力严重不足 - Claude.ai、Claude Code、API 用量限制频频触发 - 用户使用极速逼近限额 - 模型质量在”模型推出后逐渐变差”的模式被怀疑是有意降级

1.3 OpenAI 的反击窗口

OpenAI 在数据中心 / compute 上的投入远超 Anthropic： - 2026 年算力优势明显 - GPT 5.5 是这个优势的第一波”反击” - “如果传闻属实，Spud（GPT 5.5 内部代号）就是 Mythos 级别”

第二阶段：GPT 5.5 的官方亮点

2.1 OpenAI 的”暗讽”

David 引用官方文章：

“Larger, more capable models are often slower to serve, but GPT 5.5 matches GPT 5.4 per-token latency in real-world serving while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same correct task.”

这是对 Anthropic 的两记重击： 1. 同样延迟，更高智能：暗示 Anthropic 的新模型推理变慢。 2. 更少 token 完成同样任务：直接对标 Opus 4.7 新 tokenizer 的”token 通胀”问题。

2.2 主要 benchmark

David 觉得官方公布的 benchmark “有点 dirty”： - 没有列 SWE-Bench Verified（Opus 4.7 占优） - 用了 Opus 4.7 没有的小众基准（Tool-of-4、Cyber-Gym） - GDP Val、Terminal Bench、Browse Comp、Frontier Math 大幅领先 Opus

成绩亮点： - Terminal Bench：碾压 Opus 4.7 - GDP Val（经济价值任务）：胜 - Frontier Math：大幅领先 - OS World Verified：勉强领先 - 1M context + MRCR：大跃迁，明显优于 GPT 5.4 与 Opus

2.3 关键技术变化

支持 1M context（API）
长上下文性能显著提升（与 Opus 4.7 退步形成对比）
更强 agentic 行为（长视野、多工具协同）
更长效率：相同正确任务用更少 token

2.4 可用性

率先在 Chat GPT 与 Codex 上线（Plus、Pro、Business、Enterprise）
免费用户暂无
API 暂未开放

“这是为什么你必须给 AI 付费。无论是 ChatGPT、Claude 还是 Perplexity，付一个就行。”

第三阶段：用 GPT 5.5 总结 GPT 5.5

3.1 自我评测

David 直接把 OpenAI 官网整个 5.5 介绍页粘进 ChatGPT 5.5 thinking 模式：

Give me a concise summary of the most interesting points about this new GPT 5.5 model and especially what is unusual or new about this model compared to other cutting edge AI model releases. Be very concise.

输出比 GPT 5.4 显著更易读、格式更清晰，让 David 第一感觉就比 5.4 顺手。

3.2 关键洞察

5.5 自己总结自己的特点： - 定位”具备 agentic 能力的工作模型”而非”更聪明的聊天机器人” - 核心声明：更擅长拆解混乱任务、规划与工具使用 - Coding 跳跃明显，尤其长视野编码 - 长上下文显著进步（API 支持 1M） - Pro 模式针对高准确度专业工作 - 强化了”科学研究能力”

第四阶段：Codex 实测 —— Unicorn SVG

4.1 标准 Codex 设置

David 强调标准配置： - Permissions: Full Access（不要用 default） - Model: GPT 5.5（其他选项纯属浪费） - Reasoning: 默认 medium（X-high 适合修深 bug 与大重构） - Speed: Fast（消耗限额快，但 $200 Pro 计划无所谓）

4.2 复刻别人发的 unicorn 图

David 截取一张高质量 unicorn SVG 推文截图：

Recreate this unicorn exactly as on the image attached.

放在新文件夹 /unicorn 里跑。

结果： - index.html 一次成型，自动检测并修复初始颜色缺失 - 总耗时 ~2 分 40 秒（medium effort） - David 全屏对比原图：“几乎一模一样！” - 仅用一张截图就还原 SVG 这一点令 David 印象深刻

第五阶段：Codex 实测 —— Doom 风格 macOS 游戏

5.1 用 `$image-gen` 技能生成素材

“你可以在 Codex 中用 $ 符号触发 skills，比如 $image-gen、$computer-use、$playwright。”

David 的 prompt（在 /doom-style-game 文件夹）：

Use $image-gen skill to image-gen sprites and build the macOS app for a library game. Use $computer-use, $playwright CLI skill to debug and test the app and launch it for me in the terminal.

5.2 Codex 的工作流

Codex 自动： 1. 调用 GPT Images 2 生成游戏 sprite（怪物、墙体材质） 2. 写 SwiftUI 代码（labyrinth crawler + first-person quarter rendering） 3. 用 Playwright 自动测试游戏机制 4. 反复测试直到通过

5.3 多窗口工作流

Codex 的优势： - 可 pin chat 到左边栏当 favorite - 内置 Git work trees - 可同时跑多个 thread 互不干扰 - David 同时跑了 unicorn + Doom + 3D dungeon + SVG 四个任务

5.4 结果

游戏能跑：WASD 移动、Space 攻击
关卡可以推进（杀 boss → 下一层）
图形不直观：“纹理 OK，但游戏可读性差”
David 评估：“功能上 OK，需要打磨”

第六阶段：Codex 实测 —— SVG 实验

6.1 复刻 “living stained glass laboratory” SVG

来源：用户 Emily 发的高难度 prompt，要求生成一张实验室风格的彩绘玻璃 SVG。

David 在新 thread /svg 文件夹用 medium effort 跑。

6.2 结果

生成的 SVG 不如推文中的精致（因为推文用的是 Pro 模式跑了 20 分钟）
但仍是有效的矢量图：可无限缩放无损
“公平对比应该用同样 Pro 模式”

第七阶段：Codex 实测 —— 3D Dungeon Arena

7.1 任务设置

David 在 /3D-dungeon 用 high effort 跑：

Build a full playable 3D prototype game in the same visual style as reference screenshot. Use $image-gen skill to generate all the graphics assets and textures. Do your best work to implement all the details below. Get to work and build this 3D game end-to-end, then launch it.

7.2 Codex 的处理

Codex 自动： - 调用 GPT Images 2 生成大量游戏素材（cobblestone 纹理、怪物像素艺术） - 每次素材生成需 30-60 秒，整体拖慢 - 中途用 Playwright 自我测试 - 多次自动 fix bug

7.3 结果观察

图形质量：怪物像素艺术非常好，“如果你是游戏开发者绝对省时间”
游戏机制：3D 走廊、攻击键 Space、可移动、有伤害
可玩性：David 实际试玩，能打能死，但战斗范围与机制需要打磨
“比 Doom 风格那个好得多，毕竟是 3D”

7.4 让 Codex 自动测试网页

David 现场观察：

“It used the Playwright skill and found some issues and now it’s fixing them by itself.”

Codex 跑多次自测，发现 bug 后自动修，完全无需人为介入。

“我希望 2024 年我在搭 Vectal 时有这种工具。当时只有 Sonnet 3.5，没有 Claude Code 也没有 Codex，模型根本无法测试你的 app。这是革命性的。”

第八阶段：第四个实验 —— 国旗物理仿真

来自一条推文：物理仿真展示用 GPT 5.5。

David 复刻： - 国旗带 turbulence + stiffness 参数滑块 - 实时调整风速可见反应 - David 感觉：“物理效果可能比推文还好”

第九阶段：Codex 的整体优劣观察

9.1 GPT 5.5 在 Codex 中的优势

长任务能力：可以跑 10+ 分钟自我测试
工具协同：image-gen + computer-use + Playwright 串联自然
多线程：同时跑多个项目不互相干扰
自动测试：通过 Playwright 调试，省去人工 QA

9.2 缺陷

过度完美主义：“Codex 做了 10 个不同测试才停下，包括移动端测试，我们不在乎移动端的。”
图像生成拖慢：每张资源 30-60 秒
创意细节有限：游戏可玩，但缺乏好玩的设计

9.3 David 的中期判断

“首次印象，它确实是个更好的模型。问题是好多少。我们会拭目以待，因为我不想 overhype。”

真正的考验： - 在 OpenClaw、Hermes Agent 等 Agent 框架中表现 - 长期 workflow / 自动化中的稳定性 - 与 Claude Opus 4.7 在不同任务上的细分对比

第十阶段：实际可用建议

10.1 配置建议

入门：medium reasoning + fast speed
复杂任务：high effort
生死攸关的 PR review：X-high 或 max
永远开 dangerously-skip-permissions 类似的 full access（在 Codex 里）

10.2 多线程使用

把常用任务 pin 到左侧
用 Git work trees 跑并行实验
每个项目独立文件夹

10.3 技能 hash tag

$image-gen：触发图像生成
$computer-use：让 Agent 操作 GUI
$playwright：浏览器自动化与测试

核心要点速查表

概念	解释
GPT 5.5	OpenAI 最新模型，定位 agentic working model
GPT 5.5 Pro	高准确度专业模式，长时推理
Codex	OpenAI 官方编码 Agent，含 web UI
Skills（$image-gen 等） \| Codex 中可用 `$` 触发的内置技能
1M context	API 支持的上下文长度
MRCR	Multi-round Coreference Resolution，长上下文检索基准
Git Work Trees	Codex 内建多分支并行机制
Spud	GPT 5.5 的传闻代号
Mythos	Anthropic 未公开的大模型（10T 参数级）

8 个实用启示

不要用 Codex 默认权限：永远 full access，避免每个工具调用都按确认。
medium effort 是日常默认值：足以处理 90% 任务。
复杂任务上 high，长 refactor 上 X-high：分级使用避免浪费 token。
多线程是 Codex 杀手锏：并行跑 4 个项目效率翻倍。
$ 触发技能：image-gen、computer-use、Playwright 串联。
让 Agent 自测：用 Playwright 让 Codex 自己跑 QA。
Codex 倾向过度完美：必要时主动叫停”stop testing, just run”。
付费访问最新模型：免费用户拿不到 5.5。

10 个常见误区

以为基准就是真实体验：Opus 4.7 基准好但用着差。
以为 OpenAI 不能反超 Anthropic：算力优势会逆转局势。
以为模型质量恒定：算力紧张时会”暗自降级”。
以为长上下文 = 1M context window：实际有效区间通常远小于标称。
以为图像生成是即时的：每张 30-60 秒拖慢整体。
以为 Codex 默认设置最佳：必须改 permissions 与 model。
以为单 thread 就够：多线程并行才能发挥 Codex 价值。
以为 OpenAI benchmark 全面公平：故意省掉不利对比项。
以为 Agent 自测是噱头：Playwright 自测确实能省时省力。
以为不用付费也能用前沿模型：5.5 仅 Plus/Pro/Business 可用。

12 个关键要点

GPT 5.5 在发布几分钟内即可在 Codex 中使用。
官方对比有意忽略 SWE-Bench Verified 等 Anthropic 占优的基准。
Terminal Bench、Frontier Math、GDP Val 大幅领先 Opus。
支持 1M context（API），长上下文显著优于 Opus 4.7。
同样延迟、更少 token、更高智能——直接对比 Opus 4.7 新 tokenizer。
Codex 多线程 + 多技能（image − gen、computer-use、$playwright）= 真正的 Agent 工作站。
Codex 可自动用 Playwright 测试自己的输出。
Unicorn SVG 截图复刻几乎像素级精准。
3D Dungeon Arena 可玩，怪物像素艺术非常专业。
Codex 容易”过度完美主义”，多次测试浪费时间。
Anthropic 算力紧张可能导致 Opus 模型在使用中持续退步。
OpenAI 计划用 $100 Max 与 $200 Pro 计划进一步挤压 Claude 用户。

额外资源

资源	说明
ChatGPT Plus/Pro	接入 GPT 5.5 的最低门槛订阅
Codex（OpenAI 官方 IDE）	唯一能玩转 5.5 全能力的 Agent 工作站
GPT Images 2	5.5 内置 image-gen 调用的图像模型
Playwright	浏览器自动化测试
Open Router	等 5.5 上线后可作为接入备选
Claude Opus 4.7	写图像/视频 prompt 仍然有优势

结论

“首次印象，它确实是个更好的模型。问题是好多少。真实考验不是基准也不是首日印象，而是它如何融入你的工作流、自动化、AI Agents。这需要几天看清。”

GPT 5.5 不是另一次 incremental 更新——它是 OpenAI 算力优势第一次在面对 Anthropic 时具象化为产品。Anthropic 正面临前所未有的”质量退步”质疑，Opus 4.7 没有 fast mode、新 tokenizer 让成本变高，全球用户开始重新评估付哪家。如果接下来 2-3 周 OpenAI 维持这个节奏，2026 可能真的成为 GPT 重新统治的一年。现在最理性的策略：付费两家，平行测试，把不同 task 路由到各自最强的模型。