从自动生成文案到近期网络流行的人工智能AI绘图, AI在自然语言处理(NLP)及计算机视觉领域的应用越来越广泛,而阿里巴巴达摩院的模型开源社群及创新平台ModelScope上,已经开放上述领域及语音、科学计算等模型库及数据集,降低开发和使用人工智能模型的门槛,让大学和中小企业都能使用人工智能作科研及商业用途。
其中在NLP领域,已经在ModelScope上开放的阿里巴巴通义大模型系列AliceMind (下称“阿里通义AliceMind”),在11月底便凭借高精准度的语文理解能力,成为中文语言理解评测基准项目CLUE面世3年来首个超越人类基准的参评AI模型。
根据CLUE的排行榜于11月22日更新的成绩,阿里通义AliceMind以86.685总分,成为排行榜面世近3年来首个超越人类基准线(86.678)的AI模型,反映AI中文语言理解水平达到新的高度。
目前阿里通义AliceMind的基础模型,已经在达摩院的模型开源社群及创新平台ModelScope上开放。
CLUE是中文NLP的权威评测平台,从文本分类、阅读理解、自然语言推理等9项任务中,考核参评AI模型的语言理解能力。CLUE总排行榜自2019年12月发布至今近三年,一直吸引众多中国顶尖NLP团队的参与,尽管榜首位置多次易主,但参评AI模型一直未能超越人类基准成绩。
为提升AI模型对词语、句子以及语言整体的理解力,在预训练阶段,达摩院沿用超大规模模型训练所使用的海量高品质中文文本,同时改善模型结构和训练技术,例如使用开发函数GLU、混合词的大词表等,获得更强的文本建模能力;又例如使用StrongHold训练加速技术缩短产品生命周期、节省算力成本,进而获得性能的显著提升。在精调阶段,面对文本分类、阅读理解、自然语言推理等下游任务,达摩院采用迁移学习、数据增强、特征增强等技术,进一步提升模型表现。
以CLUE榜单的CHID成语阅读理解填空任务为例,该任务需要AI模型选出正确的成语进行填空。阿里通义AliceMind可通过海量文本数据的学习达到“博闻强识”的效果,在预训练阶段掌握选词填空所依赖的语义理解能力,训练成语数据的领域迁移。
在11月22日的评测结果中,阿里通义AliceMind在其中4项任务的表现超越人类的水平,并在总平均分首次超越人类基准线。
作为最早投入预训练语言模型研究的团队之一,达摩院研发阿里通义AliceMind体系,涵盖预训练模型、多语言预训练模型、超大中文预训练模型等,具备阅读理解、机器翻译、对话问答、文件处理等多种能力。目前相关技术已应用于医疗、电商、法律等领域,在跨境电商领域,达摩院的机器翻译系统能提供214种语言的翻译服务,每天翻译上亿文本。
计算机视觉是应用最广泛的AI技术之一,从日常手机解锁使用的人脸识别,再到热门的产业前沿自动驾驶,视觉AI都大显身手。
达摩院开放视觉智能负责人谢宣松表示:“视觉AI的潜能远未得到充分发挥,穷尽我们这些研究者的力量,也只能覆盖少数行业和场景,远未能满足全社会的需求。”ModelScope已经全面开源达摩院研发的视觉AI模型,希望让更多开发者来使用视觉AI ,更期待AI能成为人类社会前进的动力之一。
视觉AI技术覆盖从感知理解、画质增强到编辑生成等各方面。以单人照片为例, AI需要会先识别照片中人物有什么肢体动作、能否将照片中物体去背出来等,然后进一步探索照片品质如何、画质能否变得更好、照片中人物能否变得更漂亮,甚至变成卡通人物或虚拟人物等。
网络常见的人像卡通化正是AI编辑生成的例子之一,ModelScope基于域校准图片翻译网络DCT-Net(Dom AI n-Calibrated Translation),采用“先全局特征校准,再局部纹理转换”的核心,利用百张小样本风帧数据,即可训练得到轻量稳定的风格转换器,实现高品质人像风格转换效果。
拍摄不是因为环境、设备及人为操作等原因而导致图片品质不佳,在画质增强方面, ModelScope已经开放NAFNet去噪点模型,适用于很多应用的前置步骤,如智能手机照片去噪点、照片去模糊等。该模型使用简单的乘法操作替换开发函数,在不影响性能的情况下提升处理速度。
除了图片去噪点去模糊,外界对图片的细节纹理、色彩等品质问题会有更高的处理要求, ModelScope也开放专门的人像增强模型,对侦测到的图片人像修复和增强,并对图片中的非人像区域采用超分辨率技术,最终修复成完整图片。此模型能够处理大多数复杂的真实降质,修复严重损伤的人像图片。
事实上,达摩院在ModelScope面世前已经率先开放API形态的视觉AI服务,通过公有云平台对AI开发者通过“视觉智能开放平台”提供一站式视觉线上服务,开放超200个API并涵盖基础视觉、行业视觉等方面。
谢宣松认为,从开放视觉平台到ModelScope社群,意味着达摩院视觉AI的开放迈出更大一步,借以满足千行百业对视觉AI的需求,促进视觉AI的生态发展。