Meta开放可将文本转化成短视频的Make-A-Video AI工具

Meta昨（29）日公布名为Make-A-Video的AI工具，能利用文本或静态图片产生短视频，并公开给社群试用。

Make-A-Video类似OpenAI的DALL-E和Stable Diffusion，能将输入的文本以AI模型产生成图像。Meta表示，是以Meta AI部门生成性AI（generative）技术为基础发展而成，利用文本搭配图片，以及不加入相关文本及标注的视频片段为资料加以训练。Meta表示，这项工具可让用户发挥想象力，只要几行字即可生成各种天马行空、独一无二的短视频。

这项服务是Meta继今年7月的Make-A-Scene后最新生成性AI研发成果。Make-A-Scene通过提示，即可利用用户输入的文本和简单草图，来生成一幅高品质的场景图。

根据Meta的示范网站，Make-a-Video有多项能力。在基础层次上，它可以利用一行文本如“泰迪熊作画”或“机器人在时代广场跳舞”生成数秒短视频，现提供超现实、写实或风格化三种类型。它也能将单一张图转成动画，或是将二张图接合成连续性视频，例如把看似差异不小的地貌图接合成地形变动的视频。此外Make-a-Video还能以输入一则视频的素材生成4种变化，例如让跳舞的熊多出好几种舞步。

图片来源／Meta

Meta强调Make-a-Video和之前技术相比，再现文本意境的能力提高3倍，画质也改善了3倍。

Meta也将Make-a-Video的相关技术资源，公开于GitHub供研究社群试用。

图片来源／GitHub

为了减少AI模型产生有害内容，Meta强调会在Make-a-Video反复查看并使用筛选器，而且由于产生的视频相当逼真，Make-a-Video所有产生的视频都会加上浮水印以供读者识别。Meta同时强调会在Make-a-Video推向所有用户之前，持续分析、测试，确保每个环节的安全及适当。