靠联合学习打造多款医疗AI,AI Labs更开源自家框架力推

医疗机构中的病理资料,皆属高度隐私数据,无法随意访问。因此,“我们以联合学习(Federated Learning,也称联邦学习)方法来突破限制,”台湾人工智能实验室(简称AI Labs)创办人杜奕瑾说。

AI Labs成立三年,就在智能医疗领域大放异彩,不只和台北荣总打造全球第一套脑瘤临床判读AI系统,还与台大医院、北医附医等医院和疾管局,开发出肝、心、肺医疗图片和疟疾血液抹片的疾病判读AI。另外,也涉足精准医疗,打造能进行30亿个碱基的基因测序分析平台,去年更加入英国国家基因研究计划Genetic England,要推动跨国基因AI分析合作。

然而,AI Labs既非握有医疗数据的医院,在严格的个人信息保护法规下,就靠联合学习来训练模型。杜奕瑾指出,联合学习可让参与模型训练的各方,在Local端以自己的资料训练模型,再将各自的模型参数(而非原始资料)传至中央系统,经聚合(Aggregate)后,再回放参与各方,各自利用新的参数来进行下一回合训练。这个做法,医院就不必共享高机密敏感性资料。

用联合学习和医保医疗图片强化AI模型,打破资料藩篱

他举例,今年因应新冠肺炎(COVID-19)而打造的胸腔X光判读系统,就是其中一例。这个系统可分为两阶段,首先是判断该X光片是否为肺炎,接着再判断是否为新冠肺炎。

这套模型,是以AI Labs与台大医院的合作成果为基础。“今年台湾疫情暴发前,AI Labs与台大医院就先打造一套肺炎检测AI,”当时,他们利用开源资料集中的4万多张肺炎X光片和台大医院资料,采非监督式方法,以正常的肺部X光片来训练模型,接着再让模型“看”肺炎图片,在不需医生标注病灶的情形下,来学习判断肺炎。

后来,新冠肺炎在台湾大爆发后,AI Labs与疾管局、医保局和台大医院组成试验小组,利用自家医疗图片平台TAIMedimg的联合学习架构,先以台大医院的新冠肺炎图片训练一套模型,再用医保局的新冠肺炎医疗图片,来强化模型表现,20秒就能判断得到新冠肺炎的风险。这个模型在今年4月上线,是第一个开放给全球医学专家使用的新冠肺炎AI模型,也部署到5家台湾医院使用。

从资料正义出发,自行打造开源联合学习工具Harmonia

AI Labs大力拥抱联合学习,还与杜奕瑾秉持的去中心化信息分享理念有关。他指出,3年前AI Labs发起ptt.ai计划,主张资料正义运动(Data Justice Movement),设计出一套不需要主机、去中心化的信息分享算法,还给用户资料自主权。

随着AI热浪越来越强,渐渐地,他也开始思考,如何将这个想法,推广到AI模型开发和训练。于是半年前,AI Labs开始着手一项联合学习项目Harmonia,要将自家使用的联合学习框架开源出来,让联合学习“Made easy”,让用户轻松训练、部署联合学习模型。

有别于常见、只限于模拟用的联合学习框架Tensorflow Federated和PySyft,Harmonia可实际用来部署。此外,Harmonia还使用工程师熟悉的环境和语言,比如热门的开源工具Kubernetes、Git Large File Storage和GitOps等。

在执行流程上,为进行联合学习训练,首先会在Git Registry选定训练计划,再通过Webhook来通知参与节点。接着,节点便开始训练各自的模型,完成后,模型参数会回传到Registry,由一个聚合器(Aggregator)来收集各节点的模型参数。

收集完参数后,聚合器便开始集成、优化参数,再将优化过后的参数送至Registry,再回传给各个节点,进行下一轮训练,直到达到用户定义的收敛标准。

就在今年6月,AI Labs也发布了Harmonia第一版,内容包括了Harmonia-operator SDK和差分隐私(Differential privacy)函数库。“差分隐私是联合学习常见的资料保护手段,”杜奕瑾指出,虽然联合学习只取模型权重而非原始资料,但有心人还是有可能从权重参数中,回推出特定个人信息。

为防止这种攻击,最常见的就是在回传的权重中,加入噪声(Noise),来混淆视听。AI Labs也将这个方法,应用于自家的开源框架中。杜奕瑾希望,借由开源Harmonia这一小步,可以推动联合学习在台湾的应用,跨出国界来加速国际联合学习的发展。