DeepSeek V4 震撼整个 AI 行业 —— 最强开源模型实测与成本革命

频道:@DavidOndrej · 时长:29:53

📺 @DavidOndrej ⏱ 29:53 🗓 2026-05-19

视频信息

项目 内容
视频标题 DeepSeek V4 just shocked the AI industry
视频ID UVObNdNmzzw
频道 @DavidOndrej
时长 29:53
主题 DeepSeek V4 Pro 完整解析:架构亮点、对标 GPT 5.5 / Opus 4.7 的成绩与成本、用 OpenCode 跑 4 个并行项目实测
视频链接 https://www.youtube.com/watch?v=UVObNdNmzzw

引言

“这就是 AGI 的感觉吗?四个终端同时跑 DeepSeek V4 Pro,并行构建四个项目,总共只花了几美分。各位,我们真的活在未来了。”

DeepSeek V4 在 GPT 5.5 发布同一天空降,是过去 18 个月最受期待的 AI 模型。它不只是最大的开源模型(1.6 万亿参数),也是性能最强的开源模型。更关键的是:对比 Opus 4.7 便宜 7 倍,对比 GPT 5.5 Pro 便宜 40 倍。本期视频 David 用 OpenCode 同时跑 4 个 DeepSeek V4 Pro 项目,验证这场成本革命到底意味着什么。

第一阶段:DeepSeek V4 的硬件背景

1.1 在 GPU 禁运下打造的怪物

“想想看,这个模型在不用最好硬件的情况下做到这种水平,说明了非常多东西。”

地缘政治背景: - 美国和欧盟对中国实施了大量芯片出口管制 - ASML EUV 光刻机每台 $5 亿,对中国全面禁运 - DeepSeek 只能用华为昇腾 GPU + 老 Nvidia GPU(A100、可能走私的 H100)混合训练

如果他们用上最好的硬件,模型该有多强?

1.2 训练耗时

DeepSeek R1 是 2025 年 1 月发布的,V4 隔了 14-16 个月才出来。原因: - 出口管制问题 - 2025 年中训练集群出过严重故障,被迫从头训 - 从 Nvidia 切换到华为昇腾

第二阶段:架构亮点

2.1 核心创新

“这是开源社区的美妙之处,你可以借鉴彼此的想法。OpenAI 和 Anthropic 应该学学。”

2.2 两个尺寸版本

第三阶段:基准测试

3.1 知识与推理

基准 DeepSeek V4 Opus 4.6 GPT 5.4
MMLU ≈ GPT 5.4 ExtraHigh 略高
Simple QA 更强 较低 较低
GPQA Diamond 稍弱 略高 略高
Humanity’s Last Exam 稍弱
LiveCodeBench 更强
Code Forces 更强

3.2 长上下文

严重落后 Opus——这是 DeepSeek V4 的明显短板。

3.3 Agentic Coding

基准 DeepSeek V4 vs 对手
Terminal Bench 优于 Opus,略低于 GPT 5.4
SWE-Bench Verified 与 Opus 4.6 相当
SWE Pro 略低于 Opus 与 GPT
Browse Comp 优于 GPT,略低于 Opus
GDP Val 略低(不大)
Tau-Bench 优于 Opus,低于 GPT

“这是对美国 AI 实验室的潜在重击。还记得 2025 年 1 月 DeepSeek R1 发布时,Nvidia 和所有美国大科技股票暴跌吗?同样的事情可能再次发生。”

第四阶段:价格革命

“这才是真正的头条故事。这个模型他妈的便宜。它比 GPT 5.5 或 Opus 4.7 便宜得多。”

“97% 性能、7 倍便宜,这是绝佳交易。”

4.1 David 自身的成本影响

“我现在每月在 Anthropic API 上花 $5,000 到 $6,000。随着 GPT 5.5、Opus 4.7 和 DeepSeek V4 的发布,这个数字会下降。可能到 $1,000,也许 $500。”

含义: - 个人花费从 $6k/月 → 约 $500-1k/月,工作流不降级 - 大量公司和个人会迁移部分 workflow 到 DeepSeek V4 - 中国给世界 7-40 倍便宜的同等智能开源模型,谁会拒绝?

第五阶段:5 个不容忽视的缺点

DeepSeek V4 也有真实短板:

  1. 128K tokens 后性能崩塌:即使 1M context 在技术上可用,但 128K-200K 后必须 compact 历史或开新对话。
  2. 难任务上仍输给 GPT 5.5 / Opus 4.7:GPQA、HLE、SWE Pro、Terminal Bench 等。
  3. 训练耗时 14-16 个月:竞争对手一直在迭代。
  4. 重度 CCP 审查:不会触及台湾、天安门等敏感话题。
  5. 没有官方 Agent 框架:不像 Claude Code 与 Anthropic 配套,DeepSeek 没有 “deepseek-code”,需要自定义 XML 工具调用格式。

第六阶段:用 OpenCode 实测

6.1 选 OpenCode 的原因

“Open Code 反应最快,已经支持了 DeepSeek V4。我们就用它。”

OpenCode 是 Claude Code 的开源竞品,特点: - 完全开源 - 自带订阅($5/月起步,相当便宜) - 集成了几乎所有 SOTA 开源模型:DeepSeek V4、Kimi 最新版、GLM、Minimax 等 - 也支持 Open Router 和本地 Olama

6.2 安装与配置

# 一行命令安装
curl -fsSL https://opencode.ai/install | bash

启动:

opencode

切换订阅:

/connect
# 选择 opencode-go
# 粘贴从网站复制的 API key

选择模型:DeepSeek V4 Pro,reasoning effort: high。

6.3 4 个并行项目实测

项目 1:DeepSeek 架构交互式说明工具 - 在 /explainer 文件夹运行 - 复制官方技术报告 PDF 进文件夹,prompt 引用 PDF - 让它构建全栈 web app 展示 DeepSeek 的 architecture

项目 2:SVG 植物生长动画 - 单文件 HTML/CSS/JS demo - 用 SVG 模拟植物茎、叶、花生长

项目 3:卡丁车游戏 - 一个详细 prompt 的复杂游戏 - 对标 GPT 5.5 输出做参照

项目 4:太阳系外行星可视化 - 最近行星的 3D / SVG 可视化

6.4 实测结果

用量与成本: - 4 个终端跑 15-20 分钟 - 总成本 $0.20 - 占周限额 4%(订阅 $5/周)

对比:同样任务跑 Opus 4.6 fast,估计 $100-200。

质量观察: - 植物 SVG:开局成功且自动启动(加分) - 卡丁车游戏:能跑,能玩,物理一般,可作为快速 prototype - DeepSeek 架构说明:第一次 body 没居中,截图回传一句话就修好 - 推理速度慢:因为是 1.6T 模型,目前只有 1 家 provider 提供推理(DeepSeek 官方)

第七阶段:推理效率技巧

7.1 切换 reasoning effort

/models
# 选 DeepSeek V4
# Ctrl+T 在 low/medium/high/max 间循环

“如果你 high effort,DeepSeek 自己都承认在 overthinking。”

David 的建议: - 默认用 medium,速度快、足够好 - 真要榜单分数才上 highmax - 一般任务别上 high,会卡半天

7.2 为什么这么慢

第八阶段:开源还是关源

8.1 推理过程可见

“因为是开源模型,你能看到完整推理链。Anthropic 和 OpenAI 这种隐藏推理层的做法,我觉得很恶心。”

DeepSeek V4 暴露完整推理痕迹,OpenAI 和 Anthropic 都只显示 output token,不让你看 reasoning trace。

8.2 开源带来的工作流迁移

第九阶段:实际游戏测试

9.1 卡丁车游戏

启动后: - WASD 移动、Space drift、Shift boost - 地图在右上角 - 有 shield、boost 道具 - 物理:跑出赛道会被推回(基础功能 OK) - 不会是 AAA 大作,但作为 15 分钟的成果合格

9.2 出 bug 也能自然语言修

DeepSeek 架构说明 app 因为 body 没居中:

Full screenshot. Paste into Open Code. “The main body of the app is not aligned to the center. Fix it.”

简短 prompt + 截图,立刻修好。

“这就是正确的 prompt 方式:不需要 try-hard,告诉它哪里错、让它修就行。”

核心要点速查表

概念 解释
DeepSeek V4 Pro 1.6T 参数 MoE 模型,最强开源
DeepSeek V4 Flash 260B 参数轻量版,未来可本地跑
Compressed Sparse Attention 长上下文压缩注意力
ONE optimizer 与 Kimi 2.5 共享的优化器
OpenCode 开源 Claude Code 替代品
OpenCode Go OpenCode 自家推理订阅,$5/月
Open Router 模型路由中间层
Reasoning effort low/medium/high/max 四档
128K threshold 上下文超过 128K 性能崩塌
MLX 量化版本 未来 Flash 可能能本地跑

8 个实用启示

  1. 不要被 1M context 误导:DeepSeek V4 在 128K 后性能急剧下降,超过就 compact 或新开。
  2. medium reasoning 是日常默认值:high/max 主要拿来跑榜,日常徒费时间。
  3. 截图 + 简短 prompt = 最佳调试:不要 try-hard 写完美 prompt,让 Agent 看到错误自己修。
  4. 专门为每个项目建独立 folder:在该文件夹启动 Agent,避免污染根目录。
  5. API key 永远不要分享:录视频前要意识到要在结束后 rotate。
  6. OpenCode Go $5/月 = 4% 周限额跑 4 个并行项目:极致性价比。
  7. DeepSeek 推理过程可见:调试 Agent 行为时大优势。
  8. 大模型也要等推理优化:1.6T 模型刚发布时推理慢,几周后会有便宜更快的 provider。

10 个常见误区

  1. 以为开源 = 性能不行:DeepSeek V4 在多个基准上达到或超过 SOTA。
  2. 以为大模型 = 慢推理永远改不了:推理优化需要时间,但会快速跟上。
  3. 以为 1M context 都可用:实际有效窗口约 128K。
  4. 以为 Claude Code 是唯一选择:OpenCode 是真正开源、便宜的替代。
  5. 以为模型成本无法降:DeepSeek V4 一刀切到 Opus 1/7 价格。
  6. 以为审查不影响实际使用:碰到敏感话题(即使是技术分析)可能被拒。
  7. 以为没有官方 harness 就不能用:OpenCode 已经接入。
  8. 以为 high reasoning 永远更好:DeepSeek 自己都承认 overthinking。
  9. 以为推理过程没有意义:调试时能看到 Agent 思路是巨大优势。
  10. 以为不必关注 tokenomics:在大模型时代,谁省 token 谁赢。

12 个关键要点

  1. DeepSeek V4 Pro = 1.6T 参数,约 47B 激活
  2. 比 Opus 4.7 便宜 7 倍,比 GPT 5.5 Pro 便宜 40 倍
  3. 多个基准达到或超过 SOTA:LiveCodeBench、Code Forces、Simple QA、Browse Comp(对 GPT)等。
  4. 长上下文表现远弱于 Opus,需要主动 compact 历史。
  5. 训练耗时 14-16 个月,受 GPU 出口管制影响。
  6. 使用与 Kimi 2.5 相同的 ONE optimizer,体现开源协同。
  7. CCP 重度审查,敏感话题不可用。
  8. 官方未提供 Agent harness,OpenCode 是当前最佳接入点。
  9. OpenCode Go 订阅 $5/月,跑 DeepSeek V4 Pro 性价比无敌。
  10. medium reasoning 是日常推荐,high/max 只用于难任务。
  11. 4 个并行项目跑 20 分钟仅花 $0.20
  12. DeepSeek 暴露完整推理过程,OpenAI / Anthropic 隐藏。

额外资源

资源 说明
opencode.ai OpenCode 主站,含安装命令与订阅
DeepSeek 官方 GitHub 含技术报告 PDF
Open Router 看 DeepSeek 在哪个 provider
Hugging Face MLX 未来 V4 Flash 量化版本可能上线
Olama 本地推理选项(适合小模型,跑不了 V4 Pro)

结论

“这个模型不是革命性的能力,而是革命性的性价比。它在 Sonnet 4.6 之上,约等于 Opus 4.6 和 GPT 5.4 略低于 5.5 / 4.7 的水平。但它给你的能力相对它的价格——简直不可思议。”

DeepSeek 团队在 GPU 禁运、训练集群崩溃、14-16 个月 grind 之后,丢出来一个让美国 AI 实验室不得不重新思考定价的怪物。如果你愿意接受 3-5% 的性能折扣换 7-40 倍成本下降,那么从今天起就该把部分自动化、Agent 工作流、cron 任务、自动化产品脚本,迁到 DeepSeek V4。这不是要不要的问题,是迁多少的问题。