OpenAI发布新版文本转图像模型DALL-E 2

OpenAI本周发布了新版的文本转图像模型DALL-E 2，用户只要给出文本叙述，DALL-E 2系统就能自动生成图像，比起去年1月发布的第一代版本，DALL-E 2可产生更写实、更精确，分辨率也更高的图像。

DALL-E奠基在具备1,750亿个参数GPT-3上，但它仅使用120亿个参数，利用一个文本与图像配对的资料集，以文本叙述来产生图像。

原始版DALL-E得以各种由文本组成的句子来创建合理的图像，DALL-E 2的精确度改善了71.7%，写实度改善了88.8%，分辨率更是原本的4倍，还可结合概念、属性及风格，打造出更生动的图像，例如用户得以指定系统以安迪.沃荷（Andy Warhol）风格画出宇航员骑在马背上的图像，或者是以莫内（Claude Monet）的风格画出草原上的狐狸。

图片来源／OpenAI

此外，DALL-E 2还能以文本来编辑既有的图像，在考量阴影、反射与质地的状态下添加、移除或置换图像中的组件；或是以同一张图像为基准，创建不同风格或编排的版本。

OpenAI说明，DALL-E 2学习了图像与用来描述它们的语言之间的关系，通过扩散程序，从随机点的一个图案开始，并在确认图像的具体部分时，慢慢将该图案转变为图像。

现阶段OpenAI仍在与特定的用户研究DALL-E的限制与能力，包括避免被用来创建暴力、仇恨或成人图像，并打算借由过滤机制来识别违反政策的文本或图像，即使计划扩大预览社群，但现有的API并不支持DALL-E 2。