微软首席语音科学家:人工智能若不能解决语言问题,就是瞎忽悠

1991年,微软创办人比尔.盖茨(Bill Gates)成立微软研究院的初衷,就是希望计算机有一天能会看、会讲话。

不过随着人工智能(AI)发展至今,有“感知”能力的计算机已经不稀奇,让计算机学会“认知”才是科学家现在努力的目标。而要让计算机从感知走到认知,微软首席语音科学家黄学东认为,最关键的一项指标就是是否能理解语言。

AI感知大跃进,视觉、语音、文本理解能力超越人类

近年,微软研发的AI技术,在语音转文本、图像识别、中英翻译、文本理解等四大领域,皆超越人类平均水准。而其中,有三项都出自黄学东所带领的语音及语言团队。

该团队让黄学东满是骄傲的最新一项技术突破,即是“AI语音合成”,通过深度神经网络语音合成技术,让计算功能模仿人类说话的语调、韵律和发音,取代以往硬梆梆的机械音;根据微软现场展示,让人类和计算机随机轮流说一段句子,一般人根本难以识别出差异,实际测试,五题中仅答对两题,显示计算机语音合成的拟真度相当高。

“1982年我在清华做研究生的时候,很难想象计算功能听懂人的话、和人的水平一样,”黄学东说,“从1982年到2017年,这愿望已经实现了。”

黄学东观察,深度学习让计算机的感知能力大幅进步,像是语音处理、图像识别、机器翻译等,近几年错误率皆大幅降低,但他认为,距离可以举一反三、有“认知”能力的AI,仍有不小距离。

AI从感知到认知,能否理解语言是关键

“语音和语言是人工智能进化的标杆,”黄学东指出,经过几万年演进,让人类不同于其他动物的关键,就是语言。

他举例,比感知,动物比人类还优异,像是狗的嗅觉、猫的视觉、猎豹的移动速度,都优于人类,但在语言部分,人类最突出。

“在人类进化中,语言起了最决定性的作用,”黄学东说,也因此他认为,“人工智能不解决语言问题,基本上是瞎忽悠。”

不过,让计算功能“理解内容”,得先让计算机学会推理关系、逻辑关系和知识获取等能力。“这都是我们的障碍,才刚刚起步,”他说,“这就是为什么我做了三十年还没解决的问题,还在做。”他的最终目标,是希望解决语言障碍,让计算功能理解人的语言,进而掌握、传承知识。

只不过到了那天,可以24小时吸收知识的计算机,是否都比人类聪明了?“那肯定是的。”黄学东毫不迟疑地说。不过他也乐观相信,人类的创造性最终能找到与机器共存的方法。