生活大多数层面都涉及与他人沟通,以及被他人理解。许多人将这视为理所当然,但如果试着想象旁人难以理解我们的说话或表达方式时,这肯定令我们极度不便和沮丧。然而,对数百万中风、肌萎缩性脊髓侧索硬化症(ALS,Amyotrophic Lateral Sclerosis)、多发性硬化、创伤性脑损伤和帕金森氏症等神经系统疾病而产生语言障碍的人士来说,这是他们每天都必须面对的情况。
为了协助克服这个问题,Google AI for Social Good的Project Euphonia团队试着通过AI提高计算机理解各种说话形态的能力,像是较不完整的语句。Google与非盈利组织ALS-TDI(美国ALS研究机构)与ALS Residence Initiative(ALS住宅计划)合作,录下ALS患者的声音;ALS是一种神经退化疾病,会导致患者失去声音与其他随意肌的功能。在和这些组织密切合作的过程中,试着了解ALS患者的沟通需求,并致力于优化AI模型,以便让手机和计算机更准确识别与转录这类患者说出的语句。想了解更多关于与ALS-TDI的合作详情,欢迎参考Clinical Operations资深总经理Maeve McNally与ALS TDI首席科学家Fernando Vieira分享的博客文章。
请受试者朗读的语句范例。(Source:Google)
为了完成这个目标,通过Google软件将录下的语音转成声谱图,或以更可视化的图像方式来呈现声音。接着计算机会用这些经过正确转录的声谱图拿来“训练”系统,以更准确识别这类非典型的语音。模型设计目前是以具典型ALS相关障碍的英语人士为目标对象,但相信这项研究将可应用到更大范围的群体与不同的语言障碍。
除了提升语音识别能力,也会训练可侦测声音或手势的个性化模型,且这类模型还可采取相关行动,例如对Google Home下达语音指令或发送短信。这类模型对患有严重残疾且无法说话的人士来说特别有帮助。
以下视频主角是Dimitri Kanevsky,年幼失聪后才开始学英文,目前是Google的语音研究员。Dimitri使用的是即时转录应用程序,并配备自订语音识别模型,专门用来识别他的声音。另一个主角Steve Saling在13年前确诊为ALS,他在视频中不出声即可操作Google Home,并在运动赛事时通过脸部表情引导机器发出欢呼声。
Google非常期待看到这个研究带来的影响,同时也需要大众的协助。Google之所以能通过AI工具提升语音识别的效果,都要靠庞大的语音样本训练模型。如果读者或亲朋好友有上述提到因特殊疾病而说话含糊不清、或让旁人难以理解的问题,可填写这份简短的表单,即可自愿为Google讲出并录制多组词语。除此之外,也非常欢迎读者向Google在这项项目合作的非盈利组织捐款或担任志工:ALS-TDI与ALS residence initiative。模型听过的语音样本愈多,就愈有机会取得进展,并且将这些工具应用在通过各种方式沟通的用户身上。
不需要说话或听到声音,也可用电话沟通
去年,Google软件工程师、Live Relay开发人员Sapir Caduri读到一篇以色列年轻女性在社群媒体发布的文章,是关于那位女性曾交往的听障男友,设法修复家中网络连接的故事。即使网络服务供应商的技术支持人员知道对方是听障人士,却仍然无法通过文本、电子邮件或即时通信与男友沟通。这名女性提到,这件事让男友深切感到,能独立自主且有足够能力处理这些事的重要性。
这篇文章让Sapir Caduri开始思考:如何协助人们在不需实际交谈的情况下接听电话?这个想法催生了研究项目:Live Relay。
Live Relay使用设备的语音识别和文本转语音功能,让用户能一边输入文本,一边让手机代替用户与对方交谈。借由提供即时回复与预测性的文本输入建议,Smart Reply与Smart Compose协助让用户输入文本的速度能快到让对话进行的速度比拟一般讲电话。
Live Relay完全在设备执行,因此可确保通话的隐私性。由于Live Relay可让用户在电话呼出的语音通话中与另一端的通话者交互,不需移动数据,因此即使另一方以市话来电也可进行。
Live Relay能在通话中协助无法说话或有听力障碍的人士,并当作现有听障人士服务方案的补充服务,特别是帮助听障用户。举例来说,美国境内就为听障人士提供无障碍和即时文本转译(RTT)服务。这类服务在某些情况下有优势,Google的目标也并非取代这些系统,而是将Live Relay当作额外搭配的选用方案,在适当情况下尽可能提供协助,例如接听来电,或是当用户因隐私考量,希望能使用全自动系统时。
Google对Live Relay的长期发展十分乐观,相信全体用户都能因这项服务受益。相信许多用户都曾有需要接听重要电话,但无法离开当下手边进行事项的经验。在Live Relay的帮助下,用户不必实际与对方交谈,也能随时随地通过输入文本的方式接听电话,甚至可集成即时翻译功能,让用户能与世界各地的人通话,完全不必担心语言隔阂。这一切可能性都源自无障碍功能的设计初衷。
Live Relay目前仍处于研究阶段,但Google希望这项服务有朝一日能为用户提供更多样且优质的沟通方式,对服务资源较为不足的身心障碍人士而言更是如此。