Google大脑、英特尔和伯克利以视频训练机器人动手术

Google大脑、英特尔和伯克利大学合作开发了一种称为Motion2Vec的算法,让机器人通过观看视频,学习执行外科手术的相关任务,完成包括缝合、穿针以及打结等动作,研究人员将其实际应用在双臂达文西外科手术系统,在实验室中成功让针穿过布料。

研究人员提到,在嵌入空间(Embedding Space)学习有意义的视觉表示,可以促进发展动作分割和模仿等任务。最新的Motion2Vec算法,通过最小化孪生神经网络度量学习(Metric Learning)损失,从视频中学习深度嵌入特征空间,研究人员表示,算法在学习时,会讲究图像的排序,将同一动作片段的图像汇集在一起。

Motion2Vec是一种半监督式学习算法,其命名规则类似Word2Vec和Grasp2Vec等模型,都是从视频中学习动作,在孪生神经网络中,将相似动作分割和度量学习结合在一起,习得一个深度嵌入特征空间。伯克利大学之前就曾使用YouTube视频来训练人工智能跳舞、后空翻和各种杂耍,而Google也有相关研究,是使用视频教四足机器人学习狗的灵活动作。

研究人员提到,通过专家示范的视频,可以训练机器人操作技能,以改进用于手术的机器人,实验结果显示,Motion2Vec的表现比目前最先进的方法都还要好。Motion2Vec从JIGSAWS资料集的公开视频中模仿手术缝合动作,达到了平均85.5%的分割精准度,比参考文献的分割精准度更高,而在对手术缝合视频进行运动模拟时,每个测试集观察到的位置误差为0.94厘米。研究人员提到,他们并未对针和缝合目标进行接触动力学建模,而是仅在运动层级模拟缝合动作。

JIGSAWS是JHU-ISI Gesture and Skill Assessment Working Set的缩写,该资料集包含了来自约翰霍普金斯大学,和生产达文西外科手术系统的主动外科公司的手术视频。