Google推出Android语音转字幕应用程序Live Transcribe,以帮助听障人士与外界沟通,并进一步公开其设计细节。这个应用程序使用了当前Google云计算自动语音识别(Automatic Speech Recognition ,ASR)技术,以及设备上机器学习,并且与专为聋人和弱听人士而设的高立德大学合作,进行用户体验研究。
借由自动语音识别技术,耳聋和听力障碍人士可以更方便的接受外界的语音频息,Google在YouTube中应用自动语音识别提供字幕,也用于演示文稿展示以及电话拨打中。虽然这项技术在这几年已经有长足的进步,但是听障人士仍主要依赖人工手动转录服务,而这些服务价格昂贵,还需要事先安排,间接影响听障人士参与社交的机会。
Google解释过去之所以自动转录服务还无法普及的原因,除了因为应用自动语音识别进行转录,需要计算密集的模型之外,还需要进行详尽的用户研究以及付出高昂的访问成本,Google结合广泛的用户体体验,以及无缝且可持续链接提供服务的服务器,打造出Live Transcribe服务。
Google设计Live Transcribe其中一个重要的考量,是避免用户消耗过多数据流量,为此,Google在移动设备上实例了类神经网络语音侦测器,并使用了大规模声音数据集AudioSet,Google提到,该网络是一个类似VGGish的图像模型,能够侦测语音,并且自动管理到云计算自动语音识别引擎的网络链接,在长时间使用的状况下,能最大程度减少数据用量。
另外,为了让Live Transcribe更符合听障人士使用习惯,Google与高立德大学合作,进行用户体验合作,以确保应用程序可以满足核心用户的需要,Google一开始对计算机、平板电脑、智能手机甚至是微型投影机都做了使用研究,设计显示听觉消息和字幕的方法,最后Google决定专注发展在智能手机上的应用,因为手机无所不在。
Google选择不在Live Transcribe上显示转录信心程度,过去研究认为,在字幕上显示单词或是短语的信心程度,将有助于用户理解转录字幕,但Google的最新研究显示,在字幕上不显示这些消息,将有助于用户阅读字幕,Google选择专注呈现文本,并以其他方式补充其他语音信号。
在应用程序使用现场,常会发生鸡尾酒派对问题,也就是现场声音太过吵杂,影响语音转录的结果,因此Google在用户体验信号,加入了当前噪音程度的图形指示,可以显示当前用户语音相对背景声音的音量,为用户提供了语音品质的即时反馈,以进一步调整手机摆放的位置。
Google提到,完全依赖语音转录技术,可能发生错误传达,因此Google会与高立德大学继续合作,结合语音侦测和响度指示器等其他听觉信号,为用户提供更完整、切实的有意义的通信。