微软展示不只看懂文本,还能理解图像的AI模型

微软上周公布一项AI模型Kosmos-1,除了能理解文本,也能看懂图片及图片,可用于更多任务,像是为视频加字幕说明、看图片回答文本问题、正确搜集网页资讯等等。

微软在一篇名为《Language Is Not All You Need: Aligning Perception with Language Models》的论文中指出,虽然现行大型语言模型在自然语言处理有很成功的应用,但对于多模态(包括文本、声音及图像)资料,仍然很难原生使用大型语言模型。微软指出,“多模感知”(multimodal perception)能力是通用AI“智能”(intelligence)的必要条件,像是获取知识并运用于现实生活。而若能增加多模输入能力,将能大幅拓展语言模型用于高价值任务的可能性,像是多模态机器学习、文件AI智能以及机器人等。

因此微软提出多模大型语言模型(Multimodal Large Language Model,MLLM)KOSMOS-1,希望它具备常见多模态(如图像、文本、声音)资料、依循指令(即零样本学习)并在特定条件中学习(少样本学习)的能力。

图片来源/微软

为了训练一个能“看”和“说话”的模型,微软倣效METALM HSD+22的训练方法来训练KOSMOS-1。他们使用Transformer模型作为通用接口,再接上感知模块。之后,研究人员以网络上搜集的多模资料,包括纯文本资料、图文掺杂的任意资讯,及具有文本说明的图片等来训练,之后再输入纯语言资料,以校正各模态遵循指令的能力。

微软以多种任务来评估训练完成的KOSMOS-1模型,包括语言理解、常识理解、非口语推理(如IQ测验)、为图片加文本说明或回答视觉相关的提问,以及零样本(zero-shot)视觉资料的分类及描述等。其中,实验结果显示,16亿参数的小型KOSMOS-1模型在零样本的图像加文本说明的任务表现尤其优异,而在回答视觉问题方面,只要少量样本训练过,KOSMOS-1表现可优于其他模型(包括MetaLM)。

图片来源/微软

而在常用的IQ测验(Raven IQ test)中,KOSMOS-1展现出能理解题目中非口语(如图片)资料的概念规则,还能自行推论、预测接下来出现的元素(如图片)。研究人员表示,这是第一个能作答零样本Raven IQ test的模型。虽然该模型和普通成人推论能力相比还差一截,但展现出零样本语言模型的非口语理解能力具有相当潜力。另外,KOSMOS-1也可在没有OCR技术的协助下,读取及理解图片中挟杂的文本。若提供文本描述,更能大幅提升这个模型的图像识别能力。

Bing二月上线时,在从网页搜集公司财报资料出现许多错误,这是因为LLM模型并不擅长搜集资料。为此,研究人员测试了KOSMOS-1依网页回答问题的能力。实验显示,KOSMOS能根据网页版型及Style资讯理解网页图片,又不牺牲语言能力。

此外,研究人员指出,传统LLM必须依赖文本资讯和线索来回答视觉常识问题,使其较无法理解对象属性。相较之下,KOSMOS-1还具备模态转移力,能将从视觉获得的知识/资讯转移到语言任务。

研究人员表示,未来计划将KOSMOS-1再加以扩大,并集成语言能力。他们相信这多模态大型语言模型处理多形态资料的能力,能用作集成接口,提供多模学习,协助使用指令和范例来控制以语言生成图像的AI工具。