OpenAI发布新版文本转图像模型DALL-E 2

OpenAI本周发布了新版的文本转图像模型DALL-E 2,用户只要给出文本叙述,DALL-E 2系统就能自动生成图像,比起去年1月发布的第一代版本,DALL-E 2可产生更写实、更精确,分辨率也更高的图像。

DALL-E奠基在具备1,750亿个参数GPT-3上,但它仅使用120亿个参数,利用一个文本与图像配对的资料集,以文本叙述来产生图像。

原始版DALL-E得以各种由文本组成的句子来创建合理的图像,DALL-E 2的精确度改善了71.7%,写实度改善了88.8%,分辨率更是原本的4倍,还可结合概念、属性及风格,打造出更生动的图像,例如用户得以指定系统以安迪.沃荷(Andy Warhol)风格画出宇航员骑在马背上的图像,或者是以莫内(Claude Monet)的风格画出草原上的狐狸。

图片来源/OpenAI

此外,DALL-E 2还能以文本来编辑既有的图像,在考量阴影、反射与质地的状态下添加、移除或置换图像中的组件;或是以同一张图像为基准,创建不同风格或编排的版本。

OpenAI说明,DALL-E 2学习了图像与用来描述它们的语言之间的关系,通过扩散程序,从随机点的一个图案开始,并在确认图像的具体部分时,慢慢将该图案转变为图像。

现阶段OpenAI仍在与特定的用户研究DALL-E的限制与能力,包括避免被用来创建暴力、仇恨或成人图像,并打算借由过滤机制来识别违反政策的文本或图像,即使计划扩大预览社群,但现有的API并不支持DALL-E 2。