Google发布问答语料库Natural Questions,汇集30万条问题与人工注释答案

Google发布用于训练和评估开放领域(Open-domain)问答系统的大型语料库Natural Questions,包含了30万个自然产生的问题,以及来自人工以维基百科页面注释的答案。另外,Google还举办了挑战活动,排名挑战者以Natural Questions数据集训练的模型性能。

开放领域问答是处理自然语言理解的基准任务,目的是在仿真人类找寻数据、阅读和理解文件获得问题解答的方法,像是以自然语言表达提问“天空为什么是蓝色的?”,问答系统被期望可以阅读诸如维基百科等网页,回传正确的答案。

Google提到,目前没有任何公开大型可用的自然产生问题来源,以及可以用于训练和评估问答模型的答案,自然产生问题指的是,那些真正想要寻求解答的人所提出的问题。而缺乏这类数据集的原因则是,要汇集用于问答的高品质数据,除了需要有大量真正的问题来源外,还需要花费大量的人力寻找这些问题的答案。

现在Google发布大型语料库Natural Questions,以填补这个开放数据的空白,Natural Questions是第一个使用自然产生的查询数据集,内置经阅读整个维基百科页面所得到的答案,并且仅是从简短段落提取的结果。 Google收集自家搜索引擎真实匿名的查询,并要求注释者阅读整个维基百科页面寻找答案,注释者提供两种答案注释,除了涵盖所有信息的长答案,还有简洁的短答案。

该语料库收集了30万个自然产生的问题与答案,而注释的品质经测量精准度达90%,另外, Natural Questions还包括1.6万个范例,每个问题的答案由5个不同的注释者提供,Google表示,这种数据可以用来评估问答系统的性能。

回答Natural Questions的问题,比回答一般琐碎问题需要更深入的理解能力,因此Google在发布Natural Questions语料库的同时,还向社群发出战帖公布了大挑战,挑战的内容是让挑战者上传自己训练的模型,执行7,842个与发布数据集格式相同的测试数据,网站会公布性能排名分数。 Google表示,挑战的目的是希望社群能基于Natural Questions数据,提升高端自然语言理解技术的成熟度。

Google提示了挑战可能遇到的困难,Natural Questions的目标,是要让问答系统能够阅读和理解整篇维基百科的文章,并回答问题。因此系统需要先定义答案是否可回答,Google提到,这相当重要,因为许多问题本身就是错误的假设或者过于含糊,无法简单扼要的回答。

下一步,系统还需要确定维基百科页面,是否存在任何可以用来推理答案的段落,文章可能根本不包含问题的答案。 Google认为,从文章中找到推理答案需要的所有消息的长答案识别任务,比起在长答案中寻找短答案,还需要更深层次的语言理解。

Google希望在发布Natural Questions以及挑战后,能推动更强大的问答系统开发。