解决AI模型开发的数据困境,MLCommons打造全球共享数据库!

随着企业生产的数字转型加速,如果想要创建一套机器学习模型,需要先通过大量的数据来让AI学习。基础数据的取得是个难题,但MLCommons能带来解决方案。MLCommons是一个将全球企业、组织、学界联合起来的非营利组织,期望通过将各界资料汇集、创建可以用于AI数据训练的公共数据库,以加速整个机器学习产业的发展。

MLCommons通过数据集成,加速AI的模型开发

MLCommons旨在帮助AI与机器学习模型的进一步发展,通过提供数据数据库、模型、准则与指标的方式,帮助计算机视觉、自然语言过程、语音识别等机器学习应用,借由数据的集成增加应用场景,并凝聚共同的力量来加速开发过程。

MLCommons的前身是MLPerf。MLPerf是一间成立于2018年的产业基准组织,集结了英特尔、NVIDIA、Facebook AI、Google、亚马逊、阿里巴巴和百度、微软、哈佛大学、斯坦福大学等产、学机构的参与,制定了机器学习性能的通用标准测试工具,用于帮助加速开发、创造更多样的AI产品。

如今MLPerf已扩大发展成MLCommons,除了利基MLPerf已创建的标准化度量外,也希望能通过创建全球共享的数据数据库,帮助AI模型的发展与实际应用。

MLCommons的总裁Peter Mattson透露,MLCommons的任务即在帮助加速机器学习流程的创新,增加机器学习可以为社会带来的正面影响,凝聚全球的跨产业伙伴与学界的力量,让所有开发的技术都可以相互受益。

案例:推出全球最大语音文本数据库,打破主流语言限制

例如,MLCommons于2020年底推出了语音文本数据库People’s Speech,搜集超过8万多小时的语音文本,提供更先进的语音技术,并拓展到更多种语言,打破以往语音资料都集中在主要语言上的状况。这个数据库将提供服务给使用各种语言的人口,也被认为是目前世界上最大的语音文本数据库。

除了提供了数据库之外,MLCommons也希望通过另一项MLCube计划,提供一套让机器学习模型可以互相通用、共享与兼容的标准,供全球研究及开发人员可以无缝的共享机器学习模型,通过将数据依赖关系(Data Dependencies)、输入、输出的格式等标准化,凝聚大众的力量来加速模型的验证与开发过程。

对Google、Facebook等科技巨头而言,收集海量数据并不是难事;但对小规模的AI创业公司来说,数据量与品质往往是发展的限制。MLCommons借由提供公共数据库的方式,让资源不多的企业也能取得数据训练AI,开发自己的服务,提供科技市场不同的可能性。