可灵AI图生视频基础指南教程

ai教程知识发布于 2025-02-23 21:24

358 0

图生视频是当前可灵AI视频创作者使用频率最高的功能之一。通过输入一张图片，大模型能够根据图片理解生成5秒或10秒的视频，将静态图片转变为动态视频画面。此外，用户还可以在输入图片的基础上添加文本描述，让可灵大模型根据文本表达生成一段视频。目前支持“标准”与“高品质”两种生成模式，以及16:9、9:16和1:1三种画幅比例，以满足不同用户的视频创作需求。

可灵AI图生视频基础指南教程

本文目录隐藏

应用场景

从视频创作角度来看，图生视频具有更高的可控性。创作者可以提前生成好的图片，再进行动态视频生成，极大降低了专业视频的创作成本与门槛。从视频创意角度来看，「可灵」为大家提供了另一种创意平台。用户可以通过文本来控制图片中的主体进行运动，如最近网上爆火的“老照片复活”、“与小时候的自己拥抱”，给用户的创意实现提供了无限可能。

核心公式

对图生视频来说，控制图像中的主体运动是核心，以下公式，可供大家参考：

提示词 = 主体 + 运动，背景 + 运动
- 主体：画面中的人物、动物、物体等主体；
- 运动：指目标主体希望实现的运动轨迹；
- 背景：画面中的背景。

以上公式最核心的构成是主体和运动。与文生视频不同，图生视频已经有了场景，因此只需要描述图像中的主体与希望主体实现的运动。如果涉及多个主体的多个运动，依次列举即可。「可灵」会根据我们的表达与对图像画面的理解进行提示词扩写，生成符合预期的视频。

比如，如果想要“让画中的詹姆斯戴上眼镜”，当我们只输入“戴眼镜”时，模型较难理解指令，因此更可能通过自己的判断进行视频生成。当「可灵」判断这是一幅画时，会更可能生成具有运镜的效果的画幅展览，这也是照片类的图片容易生成静止不动视频的原因（不要上传带有相框的图片）。因此，我们需要通过描述“主体+运动”来让模型理解指令，如“詹姆斯用手戴上眼镜”，或者对于多主体“詹姆斯用手戴上眼镜，背景出现一道光”，模型会更容易响应。

可灵AI图生视频基础指南教程

一些小技巧

尽量使用简单词语和句子结构，避免使用过于复杂的语言；
动符合物理规律，尽量用图片中可能发生的运动描述；
描述与图片相差较大，可能会引起镜头切换；
现阶段较难生成复杂的物理运动，比如球类的弹跳、高空抛物等；

总结

图生视频是一种基于AI技术的视频生成工具，它可以根据用户提供的图片和文本描述生成动态视频。该功能具有高可控性和低成本的特点，极大地降低了专业视频的创作门槛。用户可以通过简单的提示词（主体+运动）来控制视频中的主体运动，从而实现丰富的创意效果。同时，为了更好地利用这一工具，建议用户遵循一些基本的提示原则，如使用简单词语和句子结构、描述符合物理规律的运动等。