DeepMind把可免费访问的AlphaFold DB蛋白质结构数量,从100万扩展到2亿

Alphabet旗下专门研究人工智能的子公司DeepMind于本周宣布,已与欧洲生物资讯研究所(EMBL-EBI)合作,将AlphaFold DB中的蛋白质预测结构数量,从100万扩展到2亿,几乎涵盖了所有科学上已知的蛋白质,这同时也意味着全球主要的蛋白质数据库UniProt的绝大多数页面上,都会出现预测结构。

DeepMind所构建的AlphaFold是个可用来预测蛋白质结构的AI模型,2020年时,AlphaFold 2的准确度中位数达到92.4,就算是在最难的自由建模类别的蛋白质项目中,AlphaFold 2的准确度中位数也达87。DeepMind在2021年7月开源AlphaFold,并创建了供外界免费访问的蛋白质预测结构数据库AlphaFold DB。

蛋白质为地球生物必要的组成分子,但其功能取决于它的3D结构,得知蛋白质结构就能进一步地理解它的功用与原理,AlphaFold即提供了预测蛋白质结构的解决方案。

根据DeepMind的统计,自去年7月以来,全球已有超过50万的研究人员访问AlphaFold DB,以加速研究真实世界中待解决的各种问题,从塑胶污染到抗生素的耐药性等;此外,在《Nature》期刊上发布的AlphaFold论文,已被引用超过4,000次;开放的结构也被集成至各种公开的资料集中,包括Ensembl、UniProt与OpenTargets。

最新的AlphaFold DB所扩编的蛋白质预测结构涵盖了植物、细菌、动物与其它有机体,规模为最初数据库的200倍,科学家可直接通过Google Cloud Public Datasets下载,也能在蛋白质数据库UniProt中看到新的预测结构。

迄今DeepMind已看到全球的科学家将AlphaFold的成果应用在了解疾病、保护蜜蜂、破解生物谜题到分解塑胶等,也希望更全面的AlphaFold DB可协助更多的科学家执行任务,或是开辟新的研究领域,例如环境蛋白质组(Metaproteomics)。

此外,DeepMind也将迈开脚步,把AI应用在其它有趣且重要的科学挑战上,包括气候科学、量子化学与核融合。