OpenAI 摧毁了所有 AI 图像工具 —— GPT Images 2.0 + SeeDance 2 实战工作流

视频信息

项目	内容
视频标题	OpenAI just destroyed all AI image tools (GPT Images 2.0)
视频ID	XdQq90Ug8eY
频道	@DavidOndrej
时长	24:04
主题	用 GPT Images 2.0 生成图片 + SeeDance 2 生成视频 + Higgsfield 平台 + Claude Opus 4.7 写 prompt + Claude Code 做视频剪辑的完整 mini movie 工作流
视频链接	https://www.youtube.com/watch?v=XdQq90Ug8eY

引言

“GPT Images 2 来了，这个模型疯了。它比 Runway Pro 强得多，也是文字写实、UI 以及基本上所有别的东西最好的模型。但大家都只盯着它能做的图片，让我告诉你怎么用新的 GPT Images 2.0 制作这样的视频。”

David 演示了一个端到端 AI 视频制作流水线：用 Claude Opus 4.7 写精准 prompt → GPT Images 2 生成静态图 → 用图作 reference 让 SeeDance 2 生成视频片段 → Claude Code 用 FFmpeg 自动拼接成完整 mini 电影。整个工作流没有任何手动设计或剪辑环节，纯英文驱动。

第一阶段：Prompt 才是关键

1.1 同样模型，prompt 决定一切

“GPT Images 2 不好用？是 skill issue。”

David 举例：一个用户抱怨 “把这张草图变成 16:9 缩略图”，结果就是同样的草图加点细节。另一个人用同样的输入，但附加了一张色彩参考图 + 详细 prompt，做出来的是高度专业的 YouTube 缩略图。

结论：模型质量上限被 prompt 质量约束。

1.2 用 Claude Opus 4.7 写 prompt

prompt 的 prompt：

Look at the reference image and write a descriptive prompt for an AI image model like GPT Images 2.0 or Midjourney that would create a same style image of the scene below. Use the image attached as a style reference for how I want the character and the environment to look like. Be concise yet precise.

强烈推荐：生成原始图时也用风格参考图。

1.3 找到参考视频

David 从 Twitter 上找到一个用户（Stonkter）做的中世纪战斗场景 AI 视频。他要复刻这个视觉风格，但内容换成”弓箭手射箭”。

操作： 1. 全屏播放找到的视频 2. 截图最有代表性的一帧 3. 把截图粘进 Claude，附加上面的 prompt 模板 4. Claude 写出针对”中世纪城墙战”的图像生成 prompt

第二阶段：Higgsfield —— 一站式 AI 视觉平台

2.1 为什么选 Higgsfield

Higgsfield 把所有主流模型放在一个平台： - 图像：GPT Images 2、Midjourney、Flux、Grok Imagine 等 - 视频：SeeDance 2 (Pro & Fast)、Kling、Runway Pro、Runway 2 - 价格：SeeDance 2 单次生成 $0.04，比竞品便宜 3 倍

2.2 GPT Images 2 配置

顶部切到 Image
选 GPT Images 2
粘贴 Claude 写好的 prompt
Quality: high（关键）
Resolution: 1K 或 2K
Aspect Ratio: 16:9（YouTube/电影格式）
Batch size: 4（拿到 4 个变体）
Generate

2.3 挑选最佳变体的”物理”准则

“你需要基于物理来选。我们要箭飞过城墙，那么这张瞄准方向最对的就是最佳。”

选图原则： - 角色姿态与下一镜头逻辑一致 - 光照与构图便于后续视频生成 - 主体居中、可控

下载选中的图，立即返回 Claude，用它作为后续 5 个场景的 style anchor。

第三阶段：用 Claude 编排多镜头故事

3.1 故事 prompt 模板

Here is the image that was generated, see attached.
We will use this as the basis of our style.
Now, I need you to write new one paragraph prompts to make a multi-shot scene
that could be stitched together into a mini movie.
Give me five separate scenes.
<story>
[在这里写你的故事，比如：弓箭手射箭防守城墙]
</story>
Each paragraph must start with a sentence that clearly says
to use the attached image as a style reference.

David 强调：每段 prompt 必须以”使用附图为风格参考”开头，否则风格会在镜头间漂移。

3.2 Claude 输出 5 个场景 prompt

每个场景包含： - 视觉细节 - 动作描述 - 摄影机运动暗示 - 风格 anchor 句

重要建议：粘贴前通读每个 prompt，Claude 偶尔会塞入你不想要的细节（比如把”敌人”加进画面），会毁了整段视频。

第四阶段：用 SeeDance 2 生成视频

4.1 平台配置

Higgsfield 顶部 → Video
左侧 “Change” → 选 SeeDance 2.0（不是 SeeDance 2.0 Fast，要细节多就用 Pro 版）
General 模式
Upload Image → 选择第一阶段下载的 anchor 图

4.2 内容审核

“Protected content is not allowed.”

SeeDance 2 限制比较严： - 不能用知名 logo、商标 - 不能用名人脸 - 不会生成血腥、不当内容

上传后系统会扫描，通过后才能用作 prompt。

4.3 视频参数

Reference Image：第一阶段下载的图
Text Prompt：Claude 给的第 N 个场景描述
Sound：建议保持 On（SeeDance 自带音效不错）
Duration：4 秒
Ratio：16:9
Resolution：1080p

点 Generate，约 1-2 分钟出片。

第五阶段：5 个场景逐个生成

5.1 场景 1：弓箭手张弓

镜头：拉开弓的特写
自带声效：弓弦音
自动 zoom-in 增强戏剧张力

5.2 场景 2：射箭瞬间

复用相同 anchor 图
替换 prompt 文本（敌人位置、戏剧氛围）
SeeDance 还会自动加入”看向远处目标”的微表情

操作要点：每次只换 prompt 文本，reference image 保持不变。

5.3 场景 3：弓箭手爬梯子

“这真的疯了。听听音乐和音效，那只是 bonus，物理才是关键。这是真实的爬梯子方式——你总是有三点接触。”

SeeDance 2 自动处理了： - 始终保持三点接触（弓手持弓时单手 + 双脚或双手 + 单脚） - 一步一停的真实节奏 - 周围箭矢落入水中的环境元素

“这不是 AI slop，这是真正的物理与节奏。”

5.4 场景 4：穿越庭院

弓箭手攀爬完毕，奔跑穿过庭院
继续被攻击的环境元素
David 评价这是最满意的场景

5.5 场景 5：补充箭矢

从箭筒中抓箭、装入腰间
节奏完整闭环

第六阶段：用 Claude Code 当视频剪辑师

“我自己一帧都不剪辑。2026 年了，我们用 AI 剪。”

6.1 准备文件

下载所有 5 个 mp4 文件到一个文件夹，命名 scene-01.mp4 到 scene-05.mp4。

6.2 启动 Claude Code

cd <视频文件夹>
claude --dangerously-skip-permissions

第一步先列文件：

List out all files in this folder.

确认它能看到。

6.3 拼接命令

Now render them as a single MP4, all in a single file in the right order,
starting with 01 ending with 05. Keep the audio.

Claude Code 自动调用 FFmpeg 完成 concat： - 检测分辨率/编码兼容 - 保持音频轨 - 处理过渡

结果：完整 mini movie，包括音效，整套流程纯英文驱动。

第七阶段：GPT Images 2 的其他能力展示

7.1 杂志封面生成

David 现场拍自己一张照片，AirDrop 到 MacBook，让 GPT Images 2 生成”Time 杂志 / Economist 风格的未来预测封面”。

结果：4 张高质量变体，标题、布局、字体都接近真实杂志。

prompt 关键策略： - 给 GPT Images 2 多张参考图（社区截图、视觉指南、自己的头像） - 让 Claude 写包含”参考 image 1 / image 2 / image 3”的精确 prompt - 16:9 比例 + high quality + 2K

实测输出： - 字体匹配（直接复刻 banner 字型） - 包含 David 的脸（与原参考一致） - 显示 Claude / Cursor / GitHub / Stripe 等 logo - 部分 logo 失真（如 School 的 logo 模型不熟悉）

David 立刻发上 Twitter，作为真实营销素材。

第八阶段：Higgsfield 的图像编辑能力

GPT Images 2 不只是生成，还能： - Upscale：放大保真 - Enhancer：增强细节 - Relight：重打光 - Inpaint：局部修改 - Angles：换视角

“这不是简单的图像生成平台，它是图像编辑、orchestration、manipulation 平台。”

第九阶段：制作高质量视频的三大变量

David 总结：

prompt（文本）  →  image（参考图）  →  video（生成结果）

三者均不可省略： - prompt 烂 = 结果烂 - 图像不对 = 物理不可信（如箭头方向、角色姿势） - 没参考图 = 风格漂移

9.1 文字 vs 图片 vs 视频时间成本

文字：秒级
图像：几秒
视频：1-2 分钟

视频是最贵的，所以前面的 prompt 与图像选择必须做对。

第十阶段：实际可用场景

10.1 个人/品牌

LinkedIn 头像生成
个人杂志封面
YouTube 频道 banner

10.2 业务

营销海报（Facebook ads）
社交媒体推文配图
产品概念图
短视频广告

10.3 内容创作

历史教育动画（仿 Oversimplified / Kurzgesagt 风格）
故事剧情短片
教程视觉化

“这些 YouTube 频道有专业设计师团队，直到现在为止几乎不可能复刻。有了 GPT Images 2 与 SeeDance 2，你自己一个人就能做到。”

核心要点速查表

概念	解释
GPT Images 2.0	OpenAI 最新图像模型，文字、UI、写实、各种风格全能
SeeDance 2.0	当前最强视频模型
Higgsfield	所有 AI 视觉模型聚合平台，价格便宜
Style Anchor	第一张生成图，用作所有后续场景的风格参考
Reference Image	视频生成的图像 prompt
Multi-shot Scene	多镜头脚本，每场景独立 prompt
Claude Opus 4.7	写图像/视频 prompt 的最佳模型
Claude Code + FFmpeg	用自然语言驱动的视频剪辑工具链

8 个实用启示

永远用 Claude 写 prompt：你不需要是 prompt engineer，让 Opus 写就行。
每个场景以”use attached image as style reference”开头：避免风格漂移。
第一张图必须慎重选：它定义后续所有镜头的视觉风格。
基于物理选图：箭头方向、角色姿势必须与下一镜头逻辑一致。
粘贴前通读 Claude 的 prompt：删掉模型自作主张加的元素。
SeeDance 2 自带音效，开 sound on：免去后期音效成本。
Claude Code 用 FFmpeg 做剪辑：完全跳过手动视频编辑工具。
Higgsfield 提供最便宜的 SeeDance 2 接入：单次 $0.04 vs 竞品 3 倍价格。

10 个常见误区

以为 GPT Images 2 不好用：是 prompt 不够好。
以为单张草图能直接出专业图：需要详细 prompt + 风格参考。
以为 1K 分辨率够用：电影/视频生成建议 2K。
以为视频可以直接用文字生成：图像 reference 才能保证物理与角色一致。
以为可以用不同参考图：会风格漂移，必须用同一张。
以为 Claude 的 prompt 直接用：要先通读，删多余细节。
以为 SeeDance 2 没限制：实际有较严内容审核（名人、logo、暴力）。
以为剪辑必须手动：Claude Code + FFmpeg 完全胜任。
以为生成器不能商用：用作营销素材完全可行。
以为这只是娱乐：是真实的内容生产力革命。

12 个关键要点

GPT Images 2.0 在文字写实、UI、风格多样性上全面领先。
SeeDance 2.0 是当前最强视频模型。
Higgsfield 是性价比最高的接入平台（$0.04/次 SeeDance 2）。
Claude Opus 4.7 是写 prompt 的最佳模型。
多镜头视频每段必须用同一 style anchor 图。
每个场景 prompt 都要以”use attached image as style reference”开头。
SeeDance 2 的物理模拟惊人（爬梯子三点接触、箭矢落水）。
GPT Images 2 可以做 Time 杂志风格封面。
Higgsfield 集成 upscale、enhancer、relight、inpaint、angles 等编辑功能。
Claude Code 用 FFmpeg 一键拼接所有片段，保留音频。
生成视频的三大变量：text prompt、reference image、generation parameters。
整套流程无需手动设计或剪辑，全靠自然语言驱动。

额外资源

资源	说明
Higgsfield	所有 AI 图像/视频模型聚合平台
GPT Images 2.0	OpenAI 最新图像模型
SeeDance 2.0 / 2.0 Fast	当前最强视频模型
Claude Opus 4.7	写 prompt 的最佳模型
Claude Code	自然语言驱动的命令行 Agent，含 FFmpeg 视频拼接能力
FFmpeg	视频处理底层工具
Twitter/X	发布生成成果建立个人品牌

结论

“认真起来。不要只是看视频的人。立刻去 Higgsfield 创建账号，自己生成些东西。无论是 banner、杂志封面、mini movie，还是产品照——发挥创意，AI 图像与视频可以改善你生活或事业的某个方面。”

这套工作流的核心洞察是：视觉创作已经从”懂工具”变成”懂 prompt”。专业设计师团队的护城河被 Claude Opus 4.7 + GPT Images 2 + SeeDance 2 + Claude Code 这条流水线彻底击穿。下一个 5M 播放量的 YouTube 视频，可能就是一个人在咖啡馆里用纯英文驱动 AI 生成出来的。