脸书发布资料集Ego4D让AI通过人眼认识世界

脸书与9个国家13所大学合作，创建了第一人称视角资料集Ego4D，这个人信息料集由超过700位计划参与者，佩戴摄影机以第一人称视角收集了超过2,200小时的视频，脸书提到，单就视频长度来看，这个人信息料集比起过去任何资料集都大上20倍以上。这些视频可被用于模型训练，让人工智能能以第一人称学习事物。

研究人员以坐云霄飞车的例子，来说明第一人称视角视频的重要性，他们提到，在云霄飞车上和当地面上看着云霄飞车，视野是完全不同的，虽然人类很容易将第一人称和第三人称视角关联起来，但是目前的人工智能并没有这样的理解能力，虽然也能够将计算机视觉系统，绑在云霄飞车上拍摄画面，也能够收集非常多类似的视频，但是计算机并不知道自己在看什么，或是应该看什么。

脸书首席科学家Kristen Grauman提到，下一代人工智能系统需要从完全不同类型的资料中学习，视频应该是从产生行动的中心拍摄，而非来自旁观者角度。他还提到，人工智能要以人类的方式与世界交互，并且以第一人称感知范式发展。简单来说，就是教人工智能通过人眼理解人类日常生活活动。

Ego项目提供研究人员必要的工具和基准，以促进研究，并推动以第一人称为中心的前端感知研究。研究人员提到，基准和资料集是人工智能创新的关键，当前计算机视觉系统识别物体的能力，创建在诸如MNIST、COCO和ImageNet等资料集之上。

而第一人称感知是全新的领域，过去的工具无法提供必要的创新，Ego4D则具有前所没有的规模和多样性。研究团队向合作大学的研究参与者，发送头戴摄影机和其他可穿戴传感器，以便捕捉他们第一人称、无脚本的日常生活，像是购物、烹饪或是玩游戏交谈等。

视频资料集捕捉了佩戴相机者所关注的内容，以及与其他人交互的第一人称视角，研究人员提到，Ego4D资料集的重点摆在相机佩戴者所进行的数百项活动，以及与数百种不同物体交互。参与收集Ego4D资料集的参与者，来自英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国，职业和性别各不相同，与现有的资料集相比，Ego4D提供了场景、人物和活动的多样性，能够训练针对不同背景、种族和年龄的模型。

有了这些资料，就能依据文化和地理背景差异，提供第一人称的视觉体验，像是未来人们佩戴AR眼镜，并且接受人工智能助理指导烹煮咖喱，系统便能识别出因地区而异的咖喱烹煮方法。

Ego4D拥有5个基准，分别是情景记忆、预测、手和物体操作、视听分类、社交交互，这些基准将能够促进人工智能助理的研究。Ego4D资料集将会在11月的时候发布，授给签署资料使用协议的研究单位使用。