频道:@DavidOndrej · 时长:24:04
| 项目 | 内容 |
|---|---|
| 视频标题 | OpenAI just destroyed all AI image tools (GPT Images 2.0) |
| 视频ID | XdQq90Ug8eY |
| 频道 | @DavidOndrej |
| 时长 | 24:04 |
| 主题 | 用 GPT Images 2.0 生成图片 + SeeDance 2 生成视频 + Higgsfield 平台 + Claude Opus 4.7 写 prompt + Claude Code 做视频剪辑的完整 mini movie 工作流 |
| 视频链接 | https://www.youtube.com/watch?v=XdQq90Ug8eY |
“GPT Images 2 来了,这个模型疯了。它比 Runway Pro 强得多,也是文字写实、UI 以及基本上所有别的东西最好的模型。但大家都只盯着它能做的图片,让我告诉你怎么用新的 GPT Images 2.0 制作这样的视频。”
David 演示了一个端到端 AI 视频制作流水线:用 Claude Opus 4.7 写精准 prompt → GPT Images 2 生成静态图 → 用图作 reference 让 SeeDance 2 生成视频片段 → Claude Code 用 FFmpeg 自动拼接成完整 mini 电影。整个工作流没有任何手动设计或剪辑环节,纯英文驱动。
“GPT Images 2 不好用?是 skill issue。”
David 举例:一个用户抱怨 “把这张草图变成 16:9 缩略图”,结果就是同样的草图加点细节。另一个人用同样的输入,但附加了一张色彩参考图 + 详细 prompt,做出来的是高度专业的 YouTube 缩略图。
结论:模型质量上限被 prompt 质量约束。
prompt 的 prompt:
Look at the reference image and write a descriptive prompt for an AI image model like GPT Images 2.0 or Midjourney that would create a same style image of the scene below. Use the image attached as a style reference for how I want the character and the environment to look like. Be concise yet precise.
强烈推荐:生成原始图时也用风格参考图。
David 从 Twitter 上找到一个用户(Stonkter)做的中世纪战斗场景 AI 视频。他要复刻这个视觉风格,但内容换成”弓箭手射箭”。
操作: 1. 全屏播放找到的视频 2. 截图最有代表性的一帧 3. 把截图粘进 Claude,附加上面的 prompt 模板 4. Claude 写出针对”中世纪城墙战”的图像生成 prompt
Higgsfield 把所有主流模型放在一个平台: - 图像:GPT Images 2、Midjourney、Flux、Grok Imagine 等 - 视频:SeeDance 2 (Pro & Fast)、Kling、Runway Pro、Runway 2 - 价格:SeeDance 2 单次生成 $0.04,比竞品便宜 3 倍
“你需要基于物理来选。我们要箭飞过城墙,那么这张瞄准方向最对的就是最佳。”
选图原则: - 角色姿态与下一镜头逻辑一致 - 光照与构图便于后续视频生成 - 主体居中、可控
下载选中的图,立即返回 Claude,用它作为后续 5 个场景的 style anchor。
Here is the image that was generated, see attached.
We will use this as the basis of our style.
Now, I need you to write new one paragraph prompts to make a multi-shot scene
that could be stitched together into a mini movie.
Give me five separate scenes.
<story>
[在这里写你的故事,比如:弓箭手射箭防守城墙]
</story>
Each paragraph must start with a sentence that clearly says
to use the attached image as a style reference.
David 强调:每段 prompt 必须以”使用附图为风格参考”开头,否则风格会在镜头间漂移。
每个场景包含: - 视觉细节 - 动作描述 - 摄影机运动暗示 - 风格 anchor 句
重要建议:粘贴前通读每个 prompt,Claude 偶尔会塞入你不想要的细节(比如把”敌人”加进画面),会毁了整段视频。
“Protected content is not allowed.”
SeeDance 2 限制比较严: - 不能用知名 logo、商标 - 不能用名人脸 - 不会生成血腥、不当内容
上传后系统会扫描,通过后才能用作 prompt。
点 Generate,约 1-2 分钟出片。
操作要点:每次只换 prompt 文本,reference image 保持不变。
“这真的疯了。听听音乐和音效,那只是 bonus,物理才是关键。这是真实的爬梯子方式——你总是有三点接触。”
SeeDance 2 自动处理了: - 始终保持三点接触(弓手持弓时单手 + 双脚或双手 + 单脚) - 一步一停的真实节奏 - 周围箭矢落入水中的环境元素
“这不是 AI slop,这是真正的物理与节奏。”
“我自己一帧都不剪辑。2026 年了,我们用 AI 剪。”
下载所有 5 个 mp4 文件到一个文件夹,命名 scene-01.mp4 到
scene-05.mp4。
cd <视频文件夹>
claude --dangerously-skip-permissions第一步先列文件:
List out all files in this folder.
确认它能看到。
Now render them as a single MP4, all in a single file in the right order,
starting with 01 ending with 05. Keep the audio.
Claude Code 自动调用 FFmpeg 完成 concat: - 检测分辨率/编码兼容 - 保持音频轨 - 处理过渡
结果:完整 mini movie,包括音效,整套流程纯英文驱动。
David 现场拍自己一张照片,AirDrop 到 MacBook,让 GPT Images 2 生成”Time 杂志 / Economist 风格的未来预测封面”。
结果:4 张高质量变体,标题、布局、字体都接近真实杂志。
prompt 关键策略: - 给 GPT Images 2 多张参考图(社区截图、视觉指南、自己的头像) - 让 Claude 写包含”参考 image 1 / image 2 / image 3”的精确 prompt - 16:9 比例 + high quality + 2K
实测输出: - 字体匹配(直接复刻 banner 字型) - 包含 David 的脸(与原参考一致) - 显示 Claude / Cursor / GitHub / Stripe 等 logo - 部分 logo 失真(如 School 的 logo 模型不熟悉)
David 立刻发上 Twitter,作为真实营销素材。
GPT Images 2 不只是生成,还能: - Upscale:放大保真 - Enhancer:增强细节 - Relight:重打光 - Inpaint:局部修改 - Angles:换视角
“这不是简单的图像生成平台,它是图像编辑、orchestration、manipulation 平台。”
David 总结:
prompt(文本) → image(参考图) → video(生成结果)
三者均不可省略: - prompt 烂 = 结果烂 - 图像不对 = 物理不可信(如箭头方向、角色姿势) - 没参考图 = 风格漂移
视频是最贵的,所以前面的 prompt 与图像选择必须做对。
“这些 YouTube 频道有专业设计师团队,直到现在为止几乎不可能复刻。有了 GPT Images 2 与 SeeDance 2,你自己一个人就能做到。”
| 概念 | 解释 |
|---|---|
| GPT Images 2.0 | OpenAI 最新图像模型,文字、UI、写实、各种风格全能 |
| SeeDance 2.0 | 当前最强视频模型 |
| Higgsfield | 所有 AI 视觉模型聚合平台,价格便宜 |
| Style Anchor | 第一张生成图,用作所有后续场景的风格参考 |
| Reference Image | 视频生成的图像 prompt |
| Multi-shot Scene | 多镜头脚本,每场景独立 prompt |
| Claude Opus 4.7 | 写图像/视频 prompt 的最佳模型 |
| Claude Code + FFmpeg | 用自然语言驱动的视频剪辑工具链 |
| 资源 | 说明 |
|---|---|
| Higgsfield | 所有 AI 图像/视频模型聚合平台 |
| GPT Images 2.0 | OpenAI 最新图像模型 |
| SeeDance 2.0 / 2.0 Fast | 当前最强视频模型 |
| Claude Opus 4.7 | 写 prompt 的最佳模型 |
| Claude Code | 自然语言驱动的命令行 Agent,含 FFmpeg 视频拼接能力 |
| FFmpeg | 视频处理底层工具 |
| Twitter/X | 发布生成成果建立个人品牌 |
“认真起来。不要只是看视频的人。立刻去 Higgsfield 创建账号,自己生成些东西。无论是 banner、杂志封面、mini movie,还是产品照——发挥创意,AI 图像与视频可以改善你生活或事业的某个方面。”
这套工作流的核心洞察是:视觉创作已经从”懂工具”变成”懂 prompt”。专业设计师团队的护城河被 Claude Opus 4.7 + GPT Images 2 + SeeDance 2 + Claude Code 这条流水线彻底击穿。下一个 5M 播放量的 YouTube 视频,可能就是一个人在咖啡馆里用纯英文驱动 AI 生成出来的。