脸书与9个国家13所大学合作,创建了第一人称视角资料集Ego4D,这个人信息料集由超过700位计划参与者,佩戴摄影机以第一人称视角收集了超过2,200小时的视频,脸书提到,单就视频长度来看,这个人信息料集比起过去任何资料集都大上20倍以上。这些视频可被用于模型训练,让人工智能能以第一人称学习事物。
研究人员以坐云霄飞车的例子,来说明第一人称视角视频的重要性,他们提到,在云霄飞车上和当地面上看着云霄飞车,视野是完全不同的,虽然人类很容易将第一人称和第三人称视角关联起来,但是目前的人工智能并没有这样的理解能力,虽然也能够将计算机视觉系统,绑在云霄飞车上拍摄画面,也能够收集非常多类似的视频,但是计算机并不知道自己在看什么,或是应该看什么。
脸书首席科学家Kristen Grauman提到,下一代人工智能系统需要从完全不同类型的资料中学习,视频应该是从产生行动的中心拍摄,而非来自旁观者角度。他还提到,人工智能要以人类的方式与世界交互,并且以第一人称感知范式发展。简单来说,就是教人工智能通过人眼理解人类日常生活活动。
Ego项目提供研究人员必要的工具和基准,以促进研究,并推动以第一人称为中心的前端感知研究。研究人员提到,基准和资料集是人工智能创新的关键,当前计算机视觉系统识别物体的能力,创建在诸如MNIST、COCO和ImageNet等资料集之上。
而第一人称感知是全新的领域,过去的工具无法提供必要的创新,Ego4D则具有前所没有的规模和多样性。研究团队向合作大学的研究参与者,发送头戴摄影机和其他可穿戴传感器,以便捕捉他们第一人称、无脚本的日常生活,像是购物、烹饪或是玩游戏交谈等。
视频资料集捕捉了佩戴相机者所关注的内容,以及与其他人交互的第一人称视角,研究人员提到,Ego4D资料集的重点摆在相机佩戴者所进行的数百项活动,以及与数百种不同物体交互。参与收集Ego4D资料集的参与者,来自英国、意大利、印度、日本、沙特阿拉伯、新加坡、哥伦比亚、卢旺达和美国,职业和性别各不相同,与现有的资料集相比,Ego4D提供了场景、人物和活动的多样性,能够训练针对不同背景、种族和年龄的模型。
有了这些资料,就能依据文化和地理背景差异,提供第一人称的视觉体验,像是未来人们佩戴AR眼镜,并且接受人工智能助理指导烹煮咖喱,系统便能识别出因地区而异的咖喱烹煮方法。
Ego4D拥有5个基准,分别是情景记忆、预测、手和物体操作、视听分类、社交交互,这些基准将能够促进人工智能助理的研究。Ego4D资料集将会在11月的时候发布,授给签署资料使用协议的研究单位使用。