DeepSeek V4 震撼整个 AI 行业 —— 最强开源模型实测与成本革命

视频信息

项目	内容
视频标题	DeepSeek V4 just shocked the AI industry
视频ID	UVObNdNmzzw
频道	@DavidOndrej
时长	29:53
主题	DeepSeek V4 Pro 完整解析：架构亮点、对标 GPT 5.5 / Opus 4.7 的成绩与成本、用 OpenCode 跑 4 个并行项目实测
视频链接	https://www.youtube.com/watch?v=UVObNdNmzzw

引言

“这就是 AGI 的感觉吗？四个终端同时跑 DeepSeek V4 Pro，并行构建四个项目，总共只花了几美分。各位，我们真的活在未来了。”

DeepSeek V4 在 GPT 5.5 发布同一天空降，是过去 18 个月最受期待的 AI 模型。它不只是最大的开源模型（1.6 万亿参数），也是性能最强的开源模型。更关键的是：对比 Opus 4.7 便宜 7 倍，对比 GPT 5.5 Pro 便宜 40 倍。本期视频 David 用 OpenCode 同时跑 4 个 DeepSeek V4 Pro 项目，验证这场成本革命到底意味着什么。

第一阶段：DeepSeek V4 的硬件背景

1.1 在 GPU 禁运下打造的怪物

“想想看，这个模型在不用最好硬件的情况下做到这种水平，说明了非常多东西。”

地缘政治背景： - 美国和欧盟对中国实施了大量芯片出口管制 - ASML EUV 光刻机每台 $5 亿，对中国全面禁运 - DeepSeek 只能用华为昇腾 GPU + 老 Nvidia GPU（A100、可能走私的 H100）混合训练

如果他们用上最好的硬件，模型该有多强？

1.2 训练耗时

DeepSeek R1 是 2025 年 1 月发布的，V4 隔了 14-16 个月才出来。原因： - 出口管制问题 - 2025 年中训练集群出过严重故障，被迫从头训 - 从 Nvidia 切换到华为昇腾

第二阶段：架构亮点

2.1 核心创新

1.6 万亿参数总量（约 47B 激活）
MoE 混合专家架构（不是所有参数都激活）
1M context window（但有重要 caveat，见后文）
Compressed Sparse Attention 用于长上下文
Heavily Compressed Attention（MHC）残差变化
使用与 Kimi 2.5 相同的 ONE optimizer（这就是开源社区的美妙之处）
FP4 与 FP8 推理
多层级 on-policy distillation

“这是开源社区的美妙之处，你可以借鉴彼此的想法。OpenAI 和 Anthropic 应该学学。”

2.2 两个尺寸版本

DeepSeek V4 Pro：最大最强
DeepSeek V4 Flash：快速版本，约 260B 参数，未来可能能在 128GB RAM 的 MacBook 上跑量化版

第三阶段：基准测试

3.1 知识与推理

基准	DeepSeek V4	Opus 4.6	GPT 5.4
MMLU	≈ GPT 5.4 ExtraHigh	略高	—
Simple QA	更强	较低	较低
GPQA Diamond	稍弱	略高	略高
Humanity’s Last Exam	稍弱	—	—
LiveCodeBench	更强	—	—
Code Forces	更强	—	—

3.2 长上下文

严重落后 Opus——这是 DeepSeek V4 的明显短板。

3.3 Agentic Coding

基准	DeepSeek V4 vs 对手
Terminal Bench	优于 Opus，略低于 GPT 5.4
SWE-Bench Verified	与 Opus 4.6 相当
SWE Pro	略低于 Opus 与 GPT
Browse Comp	优于 GPT，略低于 Opus
GDP Val	略低（不大）
Tau-Bench	优于 Opus，低于 GPT

“这是对美国 AI 实验室的潜在重击。还记得 2025 年 1 月 DeepSeek R1 发布时，Nvidia 和所有美国大科技股票暴跌吗？同样的事情可能再次发生。”

第四阶段：价格革命

“这才是真正的头条故事。这个模型他妈的便宜。它比 GPT 5.5 或 Opus 4.7 便宜得多。”

比 Opus 4.7 便宜 7 倍
比 GPT 5.5 Pro 便宜 40 倍
性能约为前沿模型的 95-97%

“97% 性能、7 倍便宜，这是绝佳交易。”

4.1 David 自身的成本影响

“我现在每月在 Anthropic API 上花 $5,000 到 $6,000。随着 GPT 5.5、Opus 4.7 和 DeepSeek V4 的发布，这个数字会下降。可能到 $1,000，也许 $500。”

含义： - 个人花费从 $6k/月 → 约 $500-1k/月，工作流不降级 - 大量公司和个人会迁移部分 workflow 到 DeepSeek V4 - 中国给世界 7-40 倍便宜的同等智能开源模型，谁会拒绝？

第五阶段：5 个不容忽视的缺点

DeepSeek V4 也有真实短板：

128K tokens 后性能崩塌：即使 1M context 在技术上可用，但 128K-200K 后必须 compact 历史或开新对话。
难任务上仍输给 GPT 5.5 / Opus 4.7：GPQA、HLE、SWE Pro、Terminal Bench 等。
训练耗时 14-16 个月：竞争对手一直在迭代。
重度 CCP 审查：不会触及台湾、天安门等敏感话题。
没有官方 Agent 框架：不像 Claude Code 与 Anthropic 配套，DeepSeek 没有 “deepseek-code”，需要自定义 XML 工具调用格式。

第六阶段：用 OpenCode 实测

6.1 选 OpenCode 的原因

“Open Code 反应最快，已经支持了 DeepSeek V4。我们就用它。”

OpenCode 是 Claude Code 的开源竞品，特点： - 完全开源 - 自带订阅（$5/月起步，相当便宜） - 集成了几乎所有 SOTA 开源模型：DeepSeek V4、Kimi 最新版、GLM、Minimax 等 - 也支持 Open Router 和本地 Olama

6.2 安装与配置

# 一行命令安装
curl -fsSL https://opencode.ai/install | bash

启动：

opencode

切换订阅：

/connect
# 选择 opencode-go
# 粘贴从网站复制的 API key

选择模型：DeepSeek V4 Pro，reasoning effort: high。

6.3 4 个并行项目实测

项目 1：DeepSeek 架构交互式说明工具 - 在 /explainer 文件夹运行 - 复制官方技术报告 PDF 进文件夹，prompt 引用 PDF - 让它构建全栈 web app 展示 DeepSeek 的 architecture

项目 2：SVG 植物生长动画 - 单文件 HTML/CSS/JS demo - 用 SVG 模拟植物茎、叶、花生长

项目 3：卡丁车游戏 - 一个详细 prompt 的复杂游戏 - 对标 GPT 5.5 输出做参照

项目 4：太阳系外行星可视化 - 最近行星的 3D / SVG 可视化

6.4 实测结果

用量与成本： - 4 个终端跑 15-20 分钟 - 总成本 $0.20 - 占周限额 4%（订阅 $5/周）

对比：同样任务跑 Opus 4.6 fast，估计 $100-200。

质量观察： - 植物 SVG：开局成功且自动启动（加分） - 卡丁车游戏：能跑，能玩，物理一般，可作为快速 prototype - DeepSeek 架构说明：第一次 body 没居中，截图回传一句话就修好 - 推理速度慢：因为是 1.6T 模型，目前只有 1 家 provider 提供推理（DeepSeek 官方）

第七阶段：推理效率技巧

7.1 切换 reasoning effort

/models
# 选 DeepSeek V4
# Ctrl+T 在 low/medium/high/max 间循环

“如果你 high effort，DeepSeek 自己都承认在 overthinking。”

David 的建议： - 默认用 medium，速度快、足够好 - 真要榜单分数才上 high 或 max - 一般任务别上 high，会卡半天

7.2 为什么这么慢

模型 1.6T 参数，hosting 推理还没优化
在 Open Router 上只有 1 个 provider
几周内会有更便宜、更优化的推理出现

第八阶段：开源还是关源

8.1 推理过程可见

“因为是开源模型，你能看到完整推理链。Anthropic 和 OpenAI 这种隐藏推理层的做法，我觉得很恶心。”

DeepSeek V4 暴露完整推理痕迹，OpenAI 和 Anthropic 都只显示 output token，不让你看 reasoning trace。

8.2 开源带来的工作流迁移

大量自动化 / cron job / Agent 任务可以从 Anthropic API 迁到 DeepSeek
性能略低 3-5%，但成本降一个数量级
公司可以自己用 GPU 跑（European/American hardware 都行）

第九阶段：实际游戏测试

9.1 卡丁车游戏

启动后： - WASD 移动、Space drift、Shift boost - 地图在右上角 - 有 shield、boost 道具 - 物理：跑出赛道会被推回（基础功能 OK） - 不会是 AAA 大作，但作为 15 分钟的成果合格

9.2 出 bug 也能自然语言修

DeepSeek 架构说明 app 因为 body 没居中：

Full screenshot. Paste into Open Code. “The main body of the app is not aligned to the center. Fix it.”

简短 prompt + 截图，立刻修好。

“这就是正确的 prompt 方式：不需要 try-hard，告诉它哪里错、让它修就行。”

核心要点速查表

概念	解释
DeepSeek V4 Pro	1.6T 参数 MoE 模型，最强开源
DeepSeek V4 Flash	260B 参数轻量版，未来可本地跑
Compressed Sparse Attention	长上下文压缩注意力
ONE optimizer	与 Kimi 2.5 共享的优化器
OpenCode	开源 Claude Code 替代品
OpenCode Go	OpenCode 自家推理订阅，$5/月
Open Router	模型路由中间层
Reasoning effort	low/medium/high/max 四档
128K threshold	上下文超过 128K 性能崩塌
MLX 量化版本	未来 Flash 可能能本地跑

8 个实用启示

不要被 1M context 误导：DeepSeek V4 在 128K 后性能急剧下降，超过就 compact 或新开。
medium reasoning 是日常默认值：high/max 主要拿来跑榜，日常徒费时间。
截图 + 简短 prompt = 最佳调试：不要 try-hard 写完美 prompt，让 Agent 看到错误自己修。
专门为每个项目建独立 folder：在该文件夹启动 Agent，避免污染根目录。
API key 永远不要分享：录视频前要意识到要在结束后 rotate。
OpenCode Go $5/月 = 4% 周限额跑 4 个并行项目：极致性价比。
DeepSeek 推理过程可见：调试 Agent 行为时大优势。
大模型也要等推理优化：1.6T 模型刚发布时推理慢，几周后会有便宜更快的 provider。

10 个常见误区

以为开源 = 性能不行：DeepSeek V4 在多个基准上达到或超过 SOTA。
以为大模型 = 慢推理永远改不了：推理优化需要时间，但会快速跟上。
以为 1M context 都可用：实际有效窗口约 128K。
以为 Claude Code 是唯一选择：OpenCode 是真正开源、便宜的替代。
以为模型成本无法降：DeepSeek V4 一刀切到 Opus 1/7 价格。
以为审查不影响实际使用：碰到敏感话题（即使是技术分析）可能被拒。
以为没有官方 harness 就不能用：OpenCode 已经接入。
以为 high reasoning 永远更好：DeepSeek 自己都承认 overthinking。
以为推理过程没有意义：调试时能看到 Agent 思路是巨大优势。
以为不必关注 tokenomics：在大模型时代，谁省 token 谁赢。

12 个关键要点

DeepSeek V4 Pro = 1.6T 参数，约 47B 激活。
比 Opus 4.7 便宜 7 倍，比 GPT 5.5 Pro 便宜 40 倍。
多个基准达到或超过 SOTA：LiveCodeBench、Code Forces、Simple QA、Browse Comp（对 GPT）等。
长上下文表现远弱于 Opus，需要主动 compact 历史。
训练耗时 14-16 个月，受 GPU 出口管制影响。
使用与 Kimi 2.5 相同的 ONE optimizer，体现开源协同。
CCP 重度审查，敏感话题不可用。
官方未提供 Agent harness，OpenCode 是当前最佳接入点。
OpenCode Go 订阅 $5/月，跑 DeepSeek V4 Pro 性价比无敌。
medium reasoning 是日常推荐，high/max 只用于难任务。
4 个并行项目跑 20 分钟仅花 $0.20。
DeepSeek 暴露完整推理过程，OpenAI / Anthropic 隐藏。

额外资源

资源	说明
opencode.ai	OpenCode 主站，含安装命令与订阅
DeepSeek 官方 GitHub	含技术报告 PDF
Open Router	看 DeepSeek 在哪个 provider
Hugging Face MLX	未来 V4 Flash 量化版本可能上线
Olama	本地推理选项（适合小模型，跑不了 V4 Pro）

结论

“这个模型不是革命性的能力，而是革命性的性价比。它在 Sonnet 4.6 之上，约等于 Opus 4.6 和 GPT 5.4 略低于 5.5 / 4.7 的水平。但它给你的能力相对它的价格——简直不可思议。”

DeepSeek 团队在 GPU 禁运、训练集群崩溃、14-16 个月 grind 之后，丢出来一个让美国 AI 实验室不得不重新思考定价的怪物。如果你愿意接受 3-5% 的性能折扣换 7-40 倍成本下降，那么从今天起就该把部分自动化、Agent 工作流、cron 任务、自动化产品脚本，迁到 DeepSeek V4。这不是要不要的问题，是迁多少的问题。