Google发布两款文本转视频工具Imagen Video与Phenaki

不让Meta的Make-A-Video专美于前,Google也在本周发布两款文本转视频工具,分别是强调视频品质的Imagen Video,以及主打视频长度的Phenaki。

其中,Imagen Video奠基于Google的Imagen文本生成图像人工智能系统上,采用串联扩散模型(Cascaded Diffusion Models,CDM)来产生高分辨率的视频。先通过自然语言处理预训练模型T5嵌入用户所输入的文本后,由一个基本的视频扩散模型以每秒3帧的速度产生一个解度析为24×48的16帧图片,之后再利用多个Temporal Super-Resolution(TSR)与Spatial Super-Resolution (SSR)模型,最终产生每秒24帧,总长128帧且分辨率高达1280×768的5.3秒视频。

Google是以公开的LAION-400M图像/文本资料集,以及6,000万笔图像与文本的配对,再加上1,400万笔图片与文本的配对来训练Imagen Video,并宣称Imagen Video可用来创造类似梵高(Van Gogh)水彩画风的视频。

至于Phenaki则可用来创建总长多达数分钟的视频,只是图片品质不若Imagen Video。Phenaki可将一段具备一定长度的提示文本变成任意长度的视频,或许只是一段一直骑着摩托车的图片,或者是有一头狮子奔驰在长型的办公桌上,最后却穿上了西装办公。令人惊喜的是,Phenaki所呈现的视频非常贴近文本描述,而且Google认为它不仅可用来产生描述单个概念的视频,还能可根据一系列的文本,产生有连贯性的多个视频。

图片来源/Google

由于图像资料集的数量远大于视频,使得不管是Imagen Video或Phenaki都同时利用视频与图像进行训练,并发现它的确对产出的品质与多样性都有所帮助。

有鉴于用来训练Imagen Video的资料中可能含有许多不适当的内容,因此Google目前并不打算发布或开源该模型。