Google新开发IconNet视觉物体侦测模型,用来强化其无障碍应用程序Voice Access识别图标的能力,进而改进移动应用程序的可访问性。Voice Access是一个Android上的应用程序,可让用户以口语命令来自由控制设备,过去Voice Access需要依赖屏幕上用户接口元素的无障碍标签来运行,但是在许多应用中,像是图像或是图标,并非总能提供适当的无障碍标签,如此也就降低了Voice Access的可用性。
为了解决这个问题,Voice Access必需要能够借由侦测屏幕上的像素,来自动识别图标,而非仅依赖无障碍标签,因此Google开发了IconNet,这是一个以视觉为基础的物体侦测模型,该模型可以使用与应用程序低层架构无关的方法,自动侦测屏幕上的图标,目前这项功能已经加入到最新的Voice Access应用程序中。
IconNet仅通过用户接口屏幕截屏,就可以侦测31种不同的图标类型,接下来还会扩展至70多种,为了要让IconNet在设备上顺畅运行,IconNet经过优化使其适用于移动环境,模型被设计成小巧且快速的形式。
设备上用户接口元素侦测器,为了能够在多种性能的手机上执行,因此需要具有低推理延迟的特性,Voice Access需要使用标签来回应用户的话语,因此推理时间必须很短,在Pixel 3A上要小于150毫秒才行,而且模型大型不能超过10 MB。
Google提到,从技术的角度来看,侦测应用程序屏幕上的图标,问题类似典型的物体侦测,因为模型可以通过位置和大小,来标记各个元素,但从另一方来说却又是完全不同的问题,图标通常为小物体,具有相对简单的几何形状和颜色,应用程序的画面跟自然图像有很大的不同,更加结构化和几何化。
IconNet采用先进的CenterNet架构,该架构可以从输入的图像中截取特征,并且预测适当的包围框中心与大小,研究人员提到,CenterNet特别适合用来侦测图标,因为用户接口元素由简单且对称的几何图形构成,比自然图像更容易识别中心。
研究人员收集了超过70万张屏幕截屏来训练模型,并且使用启发式和辅助模型,来强化模型识别稀有图标的能力,进而简化了资料收集的工作,而且Google还对屏幕截屏使用资料增强技术,强化模型识别少见图标的能力。
研究人员使用传统的对象侦测指标来测量模型性能,将IconNet与其他模型MobileNetEdgeTPU和SSD MobileNet v2相比,在固定延迟时间的条件下,IconNet识别能力明显较高。Google会持续改进IconNet,增加支持的用户接口元素,并且扩展IconNet,要通过识别图标的功能,来区分外观相似的图标。