Google研究只用智能手机前镜头准确关注用户眼球移动

Google发布最新眼动关注技术,通过使用机器学习技术,仅使用智能手机的前镜头,就能够准确地捕捉用户的视线,低成本的眼动关注,将有助于发展视觉、无障碍和医疗保健等领域新应用。而Google也讨论了将该技术用于精神疲劳的应用,只要几分钟用户的注视资料,就能准确侦测精神疲劳。

Google提到,从1970年以来,眼动研究已经广泛用于视觉科学、语言和可用性领域,而除了基础研究之外,眼球运动也能用于用户体验研究、游戏和驾驶等广泛的应用上,但是因为过去的眼动研究,都必须使用专门的眼动仪,导致应用成本高且难以扩展。

Google新开发的注视模型,是使用MIT GazeCapture资料集训练的前馈卷积神经网络ConvNet,脸部侦测算法会标记出用户眼睛区域,并且将剪裁的影格送给ConvNet进行处理。为了评估模型,Google收集了研究参与者,观看空白屏幕上随机点的眼动资料,Google发现,使用非个性化的模型,会有较高的误差,但在使用约30秒的校准资料个性化后,误差可降低4倍。

额外的实验则显示,当手机放在支架上,或是由用户手持靠近脸部,手机眼动关注模型的准确度,可以媲美最新的眼动仪,但是比起专门的眼睛关注硬件,在智能手机上执行注视模型,并使用单个前置RGB镜头,成本约便宜100倍,更重要的是应用容易扩展。

使用智能手机进行眼动关注,就更容易复制并且验证过去神经科学和心理学,对于眼动的研究,包括标准动眼任务和自然图像理解。尽管智能手机的注视热图,比专门的眼动仪分布更广,也就是说看起来更模糊,但热图分布与像素等级和物体等级高度相关,Google提到,这样的结果表示,新技术可针对复杂画面进行缩放注视分析,像是用于自然与医疗图像。

Google发现,智能手机的注视还可以用于检测阅读理解困难,当参与研究者在阅读测验中,正确回答问题时,花费在阅读正确答案相关段落的时间较多,但是随着理解难度增加,参与研究者花了更多的时间在不相关的文章段落中,研究人员提到,花费在正确答案相关段落的注视时间,是理解程度的预测指标。

另外,Google也用新的眼动关注技术研究精神疲劳,注视侦测是检查警觉性和健康状况的重要工具,已经被医药、睡眠领域,以及像是医疗手术和飞行等重要任务环境广泛研究,不过疲劳研究通常主观且耗时,而研究人员利用了智能手机注视侦测,来研究用户的精神疲劳,并且可进一步用于关注疲劳的发生和发展。

研究人员使用机器学习模型,只要收集研究参与者几分钟的注视资料,就能够可靠地预测精神疲劳,在非疲劳的对象中,参与者的视线会依循圆形的轨迹(上图右),而疲劳者的视线则高几率出现误差与偏差(上图左)。这个研究结果显示,智能手机的注视侦测可用于侦测精神疲劳。

不只如此,智能手机注视还可以用来筛检和监控健康状况,像是自闭症谱系障碍(Autism Spectrum Disorders)、阅读障碍和脑震荡的情况,在无障碍的使用场景中,言语和运动能力受损患者,也可以通过手机注视侦测来进行交互。但研究人员也提到,注视研究是一项需要谨慎使用的技术,需要用户明确允许且知情同意,而且也应该让用户可以随时退出并且删除资料,他们也会继续研究隐私保护方式,并且提高跨人群注视技术的强健性。