如何用 AI 把照片变成视频(图生视频教程)

2026/06/11

图生视频(image-to-video)指的是:给 AI 一张静态照片,它生成一段短视频——镜头推进、水面泛起涟漪、人物转头微笑。你提供起始画面,模型负责"让它动起来"。

这是目前最实用的 AI 视频工作流之一,因为最关键的变量——构图——已经由你掌控。与其赌文字提示词能生成什么画面,不如从一张你已经认可的图出发,只让 AI 负责运动部分。

适合谁用

  • 产品营销——把一张干净的产品图变成旋转展示短片,用于广告或落地页。
  • 老照片修复爱好者——给家庭旧照加上细微自然的动态,让回忆"活"过来。
  • 社媒创作者——不用拍摄团队,把现成照片转成更抓眼球的视频内容。

操作步骤

  1. 打开 AI 视频生成器,切换到图生视频模式。
  2. **上传照片。**支持 JPG、PNG、HEIC。尽量用清晰、高分辨率、主体明确的图——模型只能驱动它"看得清"的东西。
  3. **描述运动。**用一句话写清楚什么应该,而不是画面里有什么。写法见下一节。
  4. **选模型。**平台接入了七个视频模型,下文有逐一定位。确认生成前,界面会显示当前设置的具体积分消耗。
  5. **生成。**生成通常需要几分钟,视模型与参数而定,期间有进度提示。

运动提示词:写"怎么动",不写"有什么"

模型已经看到了你的图——它知道画面里是一只运动鞋、一位船夫还是一位老人。再复述画面内容是浪费提示词,应该全部用来描述运动:

  • ❌ "白色背景上的一只红色运动鞋"(模型早就知道)
  • ✅ "缓慢旋转这只鞋,其余部分保持静止"
  • ✅ "镜头缓缓前推,金色光线扫过建筑立面"
  • ✅ "她轻轻微笑,把头转向窗边"

三条经验法则:只指定一个主要运动;写明镜头行为(固定、缓推、左摇);说清哪些部分保持不动。约束写得越清楚,模型越不会"全画面乱动"。

七个模型,各选什么场景

模型一句话定位
Hailuo 2.3运动有力流畅、听得懂镜头指令,拿不准时的默认选择
Kling v3片子要带声音就选它——阵容里唯一提供音频生成选项的模型
Wan 2.7短片稳定可靠,价格实惠
Seedance 2.0支持参考图控制结果,最高 1080p
Sora 2物理合理的运动表现,时长最高 12 秒
Grok Imagine 1.5低成本验证运动想法——一条最低 9 积分
Veo 3.1 Fast固定 8 秒一条,电影感质感

第一次不必纠结。先用一个模型生成,运动风格不对的话,同一张图和提示词换个模型重跑也很方便。

常见问题排查

**人物面部或身体变形。**通常是你要求的运动幅度超出了原图的承受范围。换更高分辨率、主体更清晰的照片,并把提示词收敛到一个细微的运动。

**画面动得太厉害。**加显式约束:"背景保持静止""只有头发随风轻动"。模型倾向于把没交代的部分也动起来——你不说什么该静止,就什么都不会静止。

**视频太短。**片段时长取决于所选模型和时长档位,时长越长积分消耗越高。每次生成前界面都会显示当前设置的确切消耗,可以先比较再决定。

关于积分消耗

视频按积分扣费,不强制订阅——余额够就能生成。免费版每天 10 积分,够出一条入门片(Grok Imagine 1.5,480p 6 秒,9 积分),或者约 5 张 GPT Image 2 图片用来打磨素材帧。更重的模型单条更贵——Veo 3.1 Fast 一条 128 积分,最高到 704——所以要常态化做视频,产量还是来自 Pro($20/月,2000 积分)或 Ultimate($40/月,5000 积分)。

常见问题

生成一条视频要多久? 生成通常需要几分钟,视所选模型、时长与分辨率而定。

生成的视频可以商用吗? Pro 与 Ultimate 生成的内容可商用——营销、社媒或任何商业场景;免费档输出仅限个人非商业用途。

什么照片都能用吗? 支持 JPG、PNG、HEIC。清晰、高分辨率、主体明确的照片效果最好。

免费版能体验图生视频吗? 能。免费版每日 10 积分够出一条 Grok Imagine 1.5(480p 6 秒,9 积分)——每天可以零成本让一张照片动起来。更重的模型需要更多积分余额;到视频生成器里能看到每个模型在你当前设置下的确切价格。

管理员

管理员