OpenAI 摧毁了所有 AI 图像工具 —— GPT Images 2.0 + SeeDance 2 实战工作流

频道:@DavidOndrej · 时长:24:04

📺 @DavidOndrej ⏱ 24:04 🗓 2026-05-19

视频信息

项目 内容
视频标题 OpenAI just destroyed all AI image tools (GPT Images 2.0)
视频ID XdQq90Ug8eY
频道 @DavidOndrej
时长 24:04
主题 用 GPT Images 2.0 生成图片 + SeeDance 2 生成视频 + Higgsfield 平台 + Claude Opus 4.7 写 prompt + Claude Code 做视频剪辑的完整 mini movie 工作流
视频链接 https://www.youtube.com/watch?v=XdQq90Ug8eY

引言

“GPT Images 2 来了,这个模型疯了。它比 Runway Pro 强得多,也是文字写实、UI 以及基本上所有别的东西最好的模型。但大家都只盯着它能做的图片,让我告诉你怎么用新的 GPT Images 2.0 制作这样的视频。”

David 演示了一个端到端 AI 视频制作流水线:用 Claude Opus 4.7 写精准 prompt → GPT Images 2 生成静态图 → 用图作 reference 让 SeeDance 2 生成视频片段 → Claude Code 用 FFmpeg 自动拼接成完整 mini 电影。整个工作流没有任何手动设计或剪辑环节,纯英文驱动。

第一阶段:Prompt 才是关键

1.1 同样模型,prompt 决定一切

“GPT Images 2 不好用?是 skill issue。”

David 举例:一个用户抱怨 “把这张草图变成 16:9 缩略图”,结果就是同样的草图加点细节。另一个人用同样的输入,但附加了一张色彩参考图 + 详细 prompt,做出来的是高度专业的 YouTube 缩略图。

结论:模型质量上限被 prompt 质量约束。

1.2 用 Claude Opus 4.7 写 prompt

prompt 的 prompt:

Look at the reference image and write a descriptive prompt for an AI image model like GPT Images 2.0 or Midjourney that would create a same style image of the scene below. Use the image attached as a style reference for how I want the character and the environment to look like. Be concise yet precise.

强烈推荐:生成原始图时也用风格参考图

1.3 找到参考视频

David 从 Twitter 上找到一个用户(Stonkter)做的中世纪战斗场景 AI 视频。他要复刻这个视觉风格,但内容换成”弓箭手射箭”。

操作: 1. 全屏播放找到的视频 2. 截图最有代表性的一帧 3. 把截图粘进 Claude,附加上面的 prompt 模板 4. Claude 写出针对”中世纪城墙战”的图像生成 prompt

第二阶段:Higgsfield —— 一站式 AI 视觉平台

2.1 为什么选 Higgsfield

Higgsfield 把所有主流模型放在一个平台: - 图像:GPT Images 2、Midjourney、Flux、Grok Imagine 等 - 视频:SeeDance 2 (Pro & Fast)、Kling、Runway Pro、Runway 2 - 价格:SeeDance 2 单次生成 $0.04,比竞品便宜 3 倍

2.2 GPT Images 2 配置

  1. 顶部切到 Image
  2. GPT Images 2
  3. 粘贴 Claude 写好的 prompt
  4. Quality: high(关键)
  5. Resolution: 1K 或 2K
  6. Aspect Ratio: 16:9(YouTube/电影格式)
  7. Batch size: 4(拿到 4 个变体)
  8. Generate

2.3 挑选最佳变体的”物理”准则

“你需要基于物理来选。我们要箭飞过城墙,那么这张瞄准方向最对的就是最佳。”

选图原则: - 角色姿态与下一镜头逻辑一致 - 光照与构图便于后续视频生成 - 主体居中、可控

下载选中的图,立即返回 Claude,用它作为后续 5 个场景的 style anchor。

第三阶段:用 Claude 编排多镜头故事

3.1 故事 prompt 模板

Here is the image that was generated, see attached.
We will use this as the basis of our style.
Now, I need you to write new one paragraph prompts to make a multi-shot scene
that could be stitched together into a mini movie.
Give me five separate scenes.
<story>
[在这里写你的故事,比如:弓箭手射箭防守城墙]
</story>
Each paragraph must start with a sentence that clearly says
to use the attached image as a style reference.

David 强调:每段 prompt 必须以”使用附图为风格参考”开头,否则风格会在镜头间漂移。

3.2 Claude 输出 5 个场景 prompt

每个场景包含: - 视觉细节 - 动作描述 - 摄影机运动暗示 - 风格 anchor 句

重要建议:粘贴前通读每个 prompt,Claude 偶尔会塞入你不想要的细节(比如把”敌人”加进画面),会毁了整段视频。

第四阶段:用 SeeDance 2 生成视频

4.1 平台配置

  1. Higgsfield 顶部 → Video
  2. 左侧 “Change” → 选 SeeDance 2.0(不是 SeeDance 2.0 Fast,要细节多就用 Pro 版)
  3. General 模式
  4. Upload Image → 选择第一阶段下载的 anchor 图

4.2 内容审核

“Protected content is not allowed.”

SeeDance 2 限制比较严: - 不能用知名 logo、商标 - 不能用名人脸 - 不会生成血腥、不当内容

上传后系统会扫描,通过后才能用作 prompt。

4.3 视频参数

点 Generate,约 1-2 分钟出片。

第五阶段:5 个场景逐个生成

5.1 场景 1:弓箭手张弓

5.2 场景 2:射箭瞬间

操作要点:每次只换 prompt 文本,reference image 保持不变

5.3 场景 3:弓箭手爬梯子

“这真的疯了。听听音乐和音效,那只是 bonus,物理才是关键。这是真实的爬梯子方式——你总是有三点接触。”

SeeDance 2 自动处理了: - 始终保持三点接触(弓手持弓时单手 + 双脚或双手 + 单脚) - 一步一停的真实节奏 - 周围箭矢落入水中的环境元素

“这不是 AI slop,这是真正的物理与节奏。”

5.4 场景 4:穿越庭院

5.5 场景 5:补充箭矢

第六阶段:用 Claude Code 当视频剪辑师

“我自己一帧都不剪辑。2026 年了,我们用 AI 剪。”

6.1 准备文件

下载所有 5 个 mp4 文件到一个文件夹,命名 scene-01.mp4scene-05.mp4

6.2 启动 Claude Code

cd <视频文件夹>
claude --dangerously-skip-permissions

第一步先列文件:

List out all files in this folder.

确认它能看到。

6.3 拼接命令

Now render them as a single MP4, all in a single file in the right order,
starting with 01 ending with 05. Keep the audio.

Claude Code 自动调用 FFmpeg 完成 concat: - 检测分辨率/编码兼容 - 保持音频轨 - 处理过渡

结果:完整 mini movie,包括音效,整套流程纯英文驱动。

第七阶段:GPT Images 2 的其他能力展示

7.1 杂志封面生成

David 现场拍自己一张照片,AirDrop 到 MacBook,让 GPT Images 2 生成”Time 杂志 / Economist 风格的未来预测封面”。

结果:4 张高质量变体,标题、布局、字体都接近真实杂志。

7.2 社区横幅(New Society banner)

prompt 关键策略: - 给 GPT Images 2 多张参考图(社区截图、视觉指南、自己的头像) - 让 Claude 写包含”参考 image 1 / image 2 / image 3”的精确 prompt - 16:9 比例 + high quality + 2K

实测输出: - 字体匹配(直接复刻 banner 字型) - 包含 David 的脸(与原参考一致) - 显示 Claude / Cursor / GitHub / Stripe 等 logo - 部分 logo 失真(如 School 的 logo 模型不熟悉)

David 立刻发上 Twitter,作为真实营销素材。

第八阶段:Higgsfield 的图像编辑能力

GPT Images 2 不只是生成,还能: - Upscale:放大保真 - Enhancer:增强细节 - Relight:重打光 - Inpaint:局部修改 - Angles:换视角

“这不是简单的图像生成平台,它是图像编辑、orchestration、manipulation 平台。”

第九阶段:制作高质量视频的三大变量

David 总结:

prompt(文本)  →  image(参考图)  →  video(生成结果)

三者均不可省略: - prompt 烂 = 结果烂 - 图像不对 = 物理不可信(如箭头方向、角色姿势) - 没参考图 = 风格漂移

9.1 文字 vs 图片 vs 视频时间成本

视频是最贵的,所以前面的 prompt 与图像选择必须做对。

第十阶段:实际可用场景

10.1 个人/品牌

10.2 业务

10.3 内容创作

“这些 YouTube 频道有专业设计师团队,直到现在为止几乎不可能复刻。有了 GPT Images 2 与 SeeDance 2,你自己一个人就能做到。”

核心要点速查表

概念 解释
GPT Images 2.0 OpenAI 最新图像模型,文字、UI、写实、各种风格全能
SeeDance 2.0 当前最强视频模型
Higgsfield 所有 AI 视觉模型聚合平台,价格便宜
Style Anchor 第一张生成图,用作所有后续场景的风格参考
Reference Image 视频生成的图像 prompt
Multi-shot Scene 多镜头脚本,每场景独立 prompt
Claude Opus 4.7 写图像/视频 prompt 的最佳模型
Claude Code + FFmpeg 用自然语言驱动的视频剪辑工具链

8 个实用启示

  1. 永远用 Claude 写 prompt:你不需要是 prompt engineer,让 Opus 写就行。
  2. 每个场景以”use attached image as style reference”开头:避免风格漂移。
  3. 第一张图必须慎重选:它定义后续所有镜头的视觉风格。
  4. 基于物理选图:箭头方向、角色姿势必须与下一镜头逻辑一致。
  5. 粘贴前通读 Claude 的 prompt:删掉模型自作主张加的元素。
  6. SeeDance 2 自带音效,开 sound on:免去后期音效成本。
  7. Claude Code 用 FFmpeg 做剪辑:完全跳过手动视频编辑工具。
  8. Higgsfield 提供最便宜的 SeeDance 2 接入:单次 $0.04 vs 竞品 3 倍价格。

10 个常见误区

  1. 以为 GPT Images 2 不好用:是 prompt 不够好。
  2. 以为单张草图能直接出专业图:需要详细 prompt + 风格参考。
  3. 以为 1K 分辨率够用:电影/视频生成建议 2K。
  4. 以为视频可以直接用文字生成:图像 reference 才能保证物理与角色一致。
  5. 以为可以用不同参考图:会风格漂移,必须用同一张。
  6. 以为 Claude 的 prompt 直接用:要先通读,删多余细节。
  7. 以为 SeeDance 2 没限制:实际有较严内容审核(名人、logo、暴力)。
  8. 以为剪辑必须手动:Claude Code + FFmpeg 完全胜任。
  9. 以为生成器不能商用:用作营销素材完全可行。
  10. 以为这只是娱乐:是真实的内容生产力革命。

12 个关键要点

  1. GPT Images 2.0 在文字写实、UI、风格多样性上全面领先
  2. SeeDance 2.0 是当前最强视频模型
  3. Higgsfield 是性价比最高的接入平台($0.04/次 SeeDance 2)。
  4. Claude Opus 4.7 是写 prompt 的最佳模型
  5. 多镜头视频每段必须用同一 style anchor 图
  6. 每个场景 prompt 都要以”use attached image as style reference”开头
  7. SeeDance 2 的物理模拟惊人(爬梯子三点接触、箭矢落水)。
  8. GPT Images 2 可以做 Time 杂志风格封面
  9. Higgsfield 集成 upscale、enhancer、relight、inpaint、angles 等编辑功能。
  10. Claude Code 用 FFmpeg 一键拼接所有片段,保留音频
  11. 生成视频的三大变量:text prompt、reference image、generation parameters
  12. 整套流程无需手动设计或剪辑,全靠自然语言驱动

额外资源

资源 说明
Higgsfield 所有 AI 图像/视频模型聚合平台
GPT Images 2.0 OpenAI 最新图像模型
SeeDance 2.0 / 2.0 Fast 当前最强视频模型
Claude Opus 4.7 写 prompt 的最佳模型
Claude Code 自然语言驱动的命令行 Agent,含 FFmpeg 视频拼接能力
FFmpeg 视频处理底层工具
Twitter/X 发布生成成果建立个人品牌

结论

“认真起来。不要只是看视频的人。立刻去 Higgsfield 创建账号,自己生成些东西。无论是 banner、杂志封面、mini movie,还是产品照——发挥创意,AI 图像与视频可以改善你生活或事业的某个方面。”

这套工作流的核心洞察是:视觉创作已经从”懂工具”变成”懂 prompt”。专业设计师团队的护城河被 Claude Opus 4.7 + GPT Images 2 + SeeDance 2 + Claude Code 这条流水线彻底击穿。下一个 5M 播放量的 YouTube 视频,可能就是一个人在咖啡馆里用纯英文驱动 AI 生成出来的。