DeepMind开源人类史上最完整的蛋白质结构数据库

DeepMind在去年底发布了AlphaFold 2模型,解决了50年来一直存在的蛋白质折叠问题,就在上周DeepMind发布了相关论文以及源码,而现在DeepMind发布人体每一种蛋白质,以及额外20种具有生物意义的蛋白质结构预测数据库。

人类寻求治疗各种疾病以及面对重大问题的方法,包括抗生素抗药性、塑胶微粒污染以及气候变迁等议题,而借由更加了解蛋白质的结构,人类便能从中获益,DeepMind提到,蛋白质就像是精巧的生物机器,结构能够说明机器具有的功能,而了解蛋白质的结构,就有助于人类理解蛋白质的功能。

过去要确定蛋白质结构,是一项耗时且困难的工作,但是DeepMind利用人工智能技术,AlphaFold能够在数分钟内,以精准到原子的精确度,预测蛋白质的形状。而现在DeepMind与欧洲生物信息研究所合作,推出了AlphaFold蛋白质结构数据库,这是目前最完整且最精确的人类蛋白质图片,是人类累计到现在蛋白质知识的2倍。

除了人类蛋白质体,涵盖人类基因组表达大约20,000种蛋白质之外,DeepMind还提供了20种其他具有生物学意义的生物蛋白质体,总计超过350,000种蛋白质结构。这项计划会继续扩大,DeepMind预计将会在接下来几个月中,涵盖所有科学已知的已定序蛋白质,结构数量将会超过1亿个,DeepMind提到,这项成果可以称作是世界蛋白质年鉴,而随着他们对AlphaFold的改进,系统和数据库也会继续更新。

蛋白质年鉴有助于促进和加速研究,增加人类对于生命组成的理解,现在已经有一些研究开始使用DeepMind的成果,像是组织DNDi使用这些蛋白质研究成果,投入贫穷地区的疾病治疗方法开发,而朴茨茅斯大学的酶创新中心研究人员,则使用AlphaFold来快速开发酶,以回收单次使用的塑胶,另外,科罗拉多大学波德分校的研究团队,也使用AlphaFold来进行抗生素的抗药性研究。