把化学合成逆向工程转成NLU课题,IBM用AI加速找出新药制程的关键

IBM首次披露一项结合AI、云计算及自动化技术的创新服务RoboRXN,主要用于化学实验场景,来找出一种新兴化学分子(molecule)的潜在制程。IBM苏黎世研究院经理暨杰出研究员Teodoro Laino表示,这项技术已经实际用于COVID-19的新药制程研究中,用来缩短新药从研发到上市的时间,IBM也现场展示了新分子3-Bromobenzylamine的自动化合成过程,这是IBM今年4月找出的3,000种潜在治疗药物小分子之一,预计在年底披露更多研究成果。

过去要发现一项新材料并成功上市,需要数年到数十年的时间,比如在研发尼龙(Nylon)这项材料时,花费了10年才正式投入市场,而研发维生素B12(vitamin B12)更是花了12年,所需的人力多达上百名,投入的成本更估计高达1,000万美元。为了解决研发时间过长的问题,Teodoro Laino表示,IBM研发了RoboRXN技术,若结合超级计算机或量子计算机的运算力,就可能将新药、新材料从研发到上市的时间缩短到1年,投入成本降至100万美元,对于具有急迫性的新药研究,能带来更大的效益。

IBM提供了一个新药化学合成全自动的云计算服务,化学家只要先上云提供设计好或过去找出来的新型分子结构,这个平台可以自动用AI模型,找出该分子结构最可能由那些常见的化学分子组成、及其合成步骤,也就是运用AI进行逆合成分析(retrosynthesis)的做法,再进一步,自动将合成方法转换成控制指令,送给可远程操控实验室的机器,自动合成出这个新型分子,等于从分子结构分析、生生产机制程预测到最后真的生产出实际的化学成品,这套云计算服务可以全程自动化完成。

RoboRXN服务的云计算软件接口。

这项技术的应用场景,在于当化学家提出了一种新颖的分子结构后,可以通过RoboRXN提供的逆合成分析技术,再不需人工干预的条件下,在几秒钟到几分钟之间,分析出该分子可以由哪些市售材料合成,甚至远程操控机器来自动化合成。IBM苏黎世研究院认知健康看护与生命科学领域的研究员Matteo Manica表示,这项技术并非用于找到新分子或新药的结构,而是用来加速新分子制程研究。

IBM发布RoboRXN时,也进一步解释了以AI进行逆合成分析的技术概念。

IBM苏黎世研究院博士前研究员Philippe Schwaller指出,市面上有一些逆合成分析工具,依赖专家手动制定分析规则,这种基于规则来进行逆合成分析的方法,会随着文献资料量倍增,而逐渐不够全面,因为专家的知识经验也有限。换句话说,在软件中手动添加规则的方式,反而局限了逆合成分析的结果。

IBM苏黎世研究院提出的论文指出,为了解决这个问题,许多专家近年来也提出了多种新分析方法,大致可归纳为基于图形(Graph-based)或基于串行(Sequence- based)两大类,而IBM正是采用了基于串行的方法,将化学反应的分子结构转换为简化分子线性输入规范(SMILES)的表现形式,也就是将分子化合物及其合成分子,分别以文本串行来表示,如此一来,就能把“分子化合物由哪些分子合成?”的预测问题,视为自然语言(NL)问题,因为“分子化合物”对应到“哪些合成分子”的问题,就类似于“英文句子”对应到“哪句中文翻译”的问题。

应用了这个概念,IBM设计了一组深度学习Seq2seq模型,借此来预测出新分子所需的分子组合,就像是预测一个苹果派用到的食材原料有哪些,比如切片苹果、面团、糖、蛋液、牛奶、肉桂等,而面团又需要用奶油、面粉来制作。

第一个AI模型,会预测新分子可能的组成成分。

接着,IBM也开发了第二个AI模型,基于第一个AI模型的分析结果(苹果派原料),进一步找出其烹饪步骤,比如应加入哪些特定份量的食材、混整合搅拌均匀,再放入烤箱烘烤,控制烘烤温度与时间,最后取出苹果派完成制作。对应到分子的制程,则是通过AI模型,来预测新分子的合成步骤。

第二个AI模型,主要用于分析新分子的合成步骤。

而IBM应用于第二个AI模型的技术,更被刊登在科学期刊Nature Communications中,其中提到,第二个AI模型背后,IBM其实还预训练了一个的NLP模型,以人工标注的方式来进行训练与调教。这个NLP模型,能用来分析各论文、专利等非结构化的文本内容,从中自动萃取出中简化的化学反应步骤,再以此来训练第二个AI模型,使其拥有预测分子合成步骤的能力。

IBM苏黎世研究院研究员Alain Vaucher指出,NLP模型的最大作用,就是将数百万个文本内容,转换为第二种AI模型容易学习的资料格式,再由第二个AI模型预测出一系列化学反应步骤,来指示机器或化学家执行。

第三个AI模型,也就是隐藏在第二个AI模型后的NLP模型,主要将文本资料内容转换为标准化的资料格式,提供第二个AI模型使用。

Teodoro Laino也补充说明,AI模型的正确率取决于资料集的使用,比如IBM运用公开、可取得的通用化学反应资料集,所训练的模型准确率可达90%,整个AI系统的训练资料量更超过200万笔。但这套AI模型也无法预测出所有分子的合成方法,遇到瓶颈时,用户可以重新训练AI,让AI学习新的化学反应与合成方法,来提高模型表现。

经过AI预测出新分子的制程后,下一步,则是要将AI预测结果转化为机器指令,来自动化合成新分子。为此,IBM也设计了一个硬件翻译器,把人工可读的合成步骤,自动转换为机器可读的格式,以此命令机器执行合成任务。

不过,目前自动化合成技术仍有局限,Teodoro Laino表示,从执行面来看,现有的合成技术局限于不超过4~5个步骤的合成任务,过多步骤或涉及提纯(purification)技术的步骤,目前仍无法支持。比如IBM发布会现场实际以3-Bromobenzylamine为例,来展示其自动化合成的过程,涉及的步骤仅有7项,以添加、混合、搅拌、冷却、萃取及温度控制等步骤为主。如下所示:

IBM发布会现场实际以3-Bromobenzylamine为例,来展示其自动化合成的过程,过程中仅花费1小时即合成完成。

位于IBM研究院中的自动化机器设备。

为了让遍布全球的化学家都能使用这项服务,IBM也将整套RoboRXN技术设计为云计算服务,让分散各地的化学家,能在IBM化学平台(IBM RXN for Chemistry)中共同协作,这项服务也尤其能在疫情期派上用场,让研究员能不受在家工作的限制,持续通过云计算工具进行研究。

Teodoro Laino也提到,这套技术也能部署在用户的私有云中,可以让有安全疑虑的研究单位于地部署。