Google发布两款文本转视频工具Imagen Video与Phenaki

不让Meta的Make-A-Video专美于前，Google也在本周发布两款文本转视频工具，分别是强调视频品质的Imagen Video，以及主打视频长度的Phenaki。

其中，Imagen Video奠基于Google的Imagen文本生成图像人工智能系统上，采用串联扩散模型（Cascaded Diffusion Models，CDM）来产生高分辨率的视频。先通过自然语言处理预训练模型T5嵌入用户所输入的文本后，由一个基本的视频扩散模型以每秒3帧的速度产生一个解度析为24×48的16帧图片，之后再利用多个Temporal Super-Resolution（TSR）与Spatial Super-Resolution （SSR）模型，最终产生每秒24帧，总长128帧且分辨率高达1280×768的5.3秒视频。

Google是以公开的LAION-400M图像/文本资料集，以及6,000万笔图像与文本的配对，再加上1,400万笔图片与文本的配对来训练Imagen Video，并宣称Imagen Video可用来创造类似梵高（Van Gogh）水彩画风的视频。

至于Phenaki则可用来创建总长多达数分钟的视频，只是图片品质不若Imagen Video。Phenaki可将一段具备一定长度的提示文本变成任意长度的视频，或许只是一段一直骑着摩托车的图片，或者是有一头狮子奔驰在长型的办公桌上，最后却穿上了西装办公。令人惊喜的是，Phenaki所呈现的视频非常贴近文本描述，而且Google认为它不仅可用来产生描述单个概念的视频，还能可根据一系列的文本，产生有连贯性的多个视频。

图片来源／Google

由于图像资料集的数量远大于视频，使得不管是Imagen Video或Phenaki都同时利用视频与图像进行训练，并发现它的确对产出的品质与多样性都有所帮助。

有鉴于用来训练Imagen Video的资料中可能含有许多不适当的内容，因此Google目前并不打算发布或开源该模型。