如何用 AI 把照片变成视频（图生视频教程）

图生视频（image-to-video）指的是：给 AI 一张静态照片，它生成一段短视频——镜头推进、水面泛起涟漪、人物转头微笑。你提供起始画面，模型负责"让它动起来"。

这是目前最实用的 AI 视频工作流之一，因为最关键的变量——构图——已经由你掌控。与其赌文字提示词能生成什么画面，不如从一张你已经认可的图出发，只让 AI 负责运动部分。

适合谁用

产品营销——把一张干净的产品图变成旋转展示短片，用于广告或落地页。
老照片修复爱好者——给家庭旧照加上细微自然的动态，让回忆"活"过来。
社媒创作者——不用拍摄团队，把现成照片转成更抓眼球的视频内容。

操作步骤

打开 AI 视频生成器，切换到图生视频模式。
**上传照片。**支持 JPG、PNG、HEIC。尽量用清晰、高分辨率、主体明确的图——模型只能驱动它"看得清"的东西。
**描述运动。**用一句话写清楚什么应该动，而不是画面里有什么。写法见下一节。
**选模型。**平台接入了七个视频模型，下文有逐一定位。确认生成前，界面会显示当前设置的具体积分消耗。
**生成。**生成通常需要几分钟，视模型与参数而定，期间有进度提示。

运动提示词：写"怎么动"，不写"有什么"

模型已经看到了你的图——它知道画面里是一只运动鞋、一位船夫还是一位老人。再复述画面内容是浪费提示词，应该全部用来描述运动：

❌ "白色背景上的一只红色运动鞋"（模型早就知道）
✅ "缓慢旋转这只鞋，其余部分保持静止"
✅ "镜头缓缓前推，金色光线扫过建筑立面"
✅ "她轻轻微笑，把头转向窗边"

三条经验法则：只指定一个主要运动；写明镜头行为（固定、缓推、左摇）；说清哪些部分保持不动。约束写得越清楚，模型越不会"全画面乱动"。

七个模型，各选什么场景

模型	一句话定位
Hailuo 2.3	运动有力流畅、听得懂镜头指令，拿不准时的默认选择
Kling v3	片子要带声音就选它——阵容里唯一提供音频生成选项的模型
Wan 2.7	短片稳定可靠，价格实惠
Seedance 2.0	支持参考图控制结果，最高 1080p
Sora 2	物理合理的运动表现，时长最高 12 秒
Grok Imagine 1.5	低成本验证运动想法——一条最低 9 积分
Veo 3.1 Fast	固定 8 秒一条，电影感质感

第一次不必纠结。先用一个模型生成，运动风格不对的话，同一张图和提示词换个模型重跑也很方便。

常见问题排查

**人物面部或身体变形。**通常是你要求的运动幅度超出了原图的承受范围。换更高分辨率、主体更清晰的照片，并把提示词收敛到一个细微的运动。

**画面动得太厉害。**加显式约束："背景保持静止""只有头发随风轻动"。模型倾向于把没交代的部分也动起来——你不说什么该静止，就什么都不会静止。

**视频太短。**片段时长取决于所选模型和时长档位，时长越长积分消耗越高。每次生成前界面都会显示当前设置的确切消耗，可以先比较再决定。

视频按积分扣费，不强制订阅——余额够就能生成。免费版每天 10 积分，够出一条入门片（Grok Imagine 1.5，480p 6 秒，9 积分），或者约 5 张 GPT Image 2 图片用来打磨素材帧。更重的模型单条更贵——Veo 3.1 Fast 一条 128 积分，最高到 704——所以要常态化做视频，产量还是来自 Pro（$20/月，2000 积分）或 Ultimate（$40/月，5000 积分）。

常见问题

生成一条视频要多久？ 生成通常需要几分钟，视所选模型、时长与分辨率而定。

生成的视频可以商用吗？ Pro 与 Ultimate 生成的内容可商用——营销、社媒或任何商业场景；免费档输出仅限个人非商业用途。

什么照片都能用吗？ 支持 JPG、PNG、HEIC。清晰、高分辨率、主体明确的照片效果最好。

免费版能体验图生视频吗？ 能。免费版每日 10 积分够出一条 Grok Imagine 1.5（480p 6 秒，9 积分）——每天可以零成本让一张照片动起来。更重的模型需要更多积分余额；到视频生成器里能看到每个模型在你当前设置下的确切价格。