Google普查网络资料集,数量大宗为社会科学,地球科学次之

Google普查互联网上的资料集,发现资料集大宗为社会科学26.2%,其次为地球科学19%,接下来则是生物学,约占了15%,Google提到,最近因为新冠肺炎爆发,生物学和医学资料集的查询需求上升。整体来说,资料集重用的方便性仍不足,因为只有11%的资料集拥有数字对象识别码(Digital Object Identifier,DOI)。

资料集是机器学习技术发展很重要的一环,不少人工智能应用,需要使用适当的资料集,训练与测试模型才能完成,而Google在2018年开始了资料集搜索引擎项目,将网络上数百万个人信息料集,和数千个人信息料存储库集结在一起,提供单一入口以提升取用资料集的方便性,这些资料集内容包罗万象,包括帝王企鹅的食性以及远程工作者的居住地都有。

这个人信息料集搜索引擎在2020年1月的时候正式启动,截至今日,资料集语料库包含了来自4,600个以上互联网域名,所提供超过3,100万个人信息料集,其中一半都是来自.com域名,而.org和政府域名也占了很大的比例。

过去两年资料集的数量大幅增长,Google调查了资料集,并且发布资料集的概况,同时也提供未来发布科学资料集最佳实践做法,Google公开了该研究的部分资料,供其他研究人员进行分析和构建工具。

资料集主题的分布,其中有接近三分之一是社会科学,而地球科学占19%,接下来则是生物学、农业、医学和机械工程等。Google提到,现在研究人员的共识是,通过发布详细的相关信息,以及在使用资料集的时候增加引用信息,以增加资料集的可用性,目前许多机构以及学术出版商,都要求作品发布以及引用资料。

即便有许多组织共同努力耕耘,非营利组织DataCite提供资料集DOI,还有诸如identifiers.org等解析服务,提供永久可引用的识别码,但是在当前Google资料集搜索引擎中,只有11%约300万个人信息料集拥有DOI,其中约有230万个人信息料集,是来自datacite.org和figshare.com两个网站。

而资料集的授权,也是资料可重用的重要指标,资料集发布方可以利用schema.org元资料属性,指定特殊的访问要求,但目前只有34%的资料集,有附加授权许可信息,Google提到,资料集没有授权许可,用户就难以判断资料集可否允许重用,因此在理想情况下,资料集添加开放授权,可大幅提升资料重用性。

另外一个影响资料可重用性的关键要素,便是提供可下载信息,但是当前只有44%资料集在元资料中注明下载信息,而之所以这项信息提供比例偏低的原因之一,是资料集托管平台担心从schema.org元资料暴露的下载连接,会使得搜索引擎或是应用程序,提供用户直接下载资料集,因而窃取了该平台的流量,Google特别强调,他们在资料集搜索引擎中,不会直接显示下载连接,用户仍须访问发布者网站,才能下载完整资料集。

Google提到,近期查询资料集的情况,与搜索引擎中拥有的资料集主题分布不同(下图),地球科学资料集的查询量偏低,而生物学和医学的查询量则大得多,可能跟新冠肺炎疫情暴发有关。随着资料集的调查结果发布,Google也将拥有DOI,和其他类型永久识别码的300万个人信息料集元资料发布,供其他研究人员执行深入分析或是使用。