科学家以数亿氨基酸串行训练AI模型,成功设计出全新人工溶菌酶

Profluent、Salesforce研究院和UCSF的科学家,以类似生成文本人工智能的方法,使用模型ProGen设计百万种蛋白质,并且成功找出具有杀菌效果的蛋白质。这个研究实际应用人工智能设计蛋白质,并经测试和证明其具有特定效果,也就是说,同样的方法将能够被用于加速新药制造。

这项研究使用一个由Salesforce研究院所开发的ProGen模型,该模型能够预测人造蛋白质的氨基酸串行。ProGen的运行方式和生成文本的人工智能相似,研究人员将来自19,000个家族的2.8亿种蛋白质的氨基酸串行输入到模型中,并添加蛋白质特性控制标签,经过数周的训练,ProGen便学会生成新蛋白质的方法。

研究人员使用5个溶菌酶家族的56,000个氨基酸串行,以及有关这些蛋白质的上下文资讯微调ProGen后,该模型迅速产生一百万个氨基酸串行,研究人员根据与天然蛋白质串行相似程度,和潜在氨基酸语法和语义的自然程度,筛选出100个串行并在细胞中实验进行实验,其中有66个和蛋白、唾液里的溶菌酶一样,能够杀死细菌。

研究人员筛选这66个氨基酸串行,制作出5种活性最强的人工酶,将这些酶添加到大肠杆菌样本中,并且和溶菌酶HEWL相比较,发现其中两种人工酶,能够以和HEWL相当的活性分解细菌细胞壁,而这两个人工酶串行仅有18%的相似程度,和已知蛋白质串行的相似度个别为90%和70%。

天然蛋白质的功能很大程度受组成影响,只要有一个突变就会使蛋白质失去作用,而在另外一轮的筛选中,研究人员找出一个只与天然蛋白质串行有31.4%相似的蛋白质,但是该蛋白质仍然具有活性。

要产生特定功能的蛋白质,不只是需要生成对的氨基酸串行,蛋白质更需要折叠成特定的三维结构,才能具有功能性,研究人员以X光来测量蛋白质形状,发现人造蛋白质即便在氨基串行上,与现有蛋白质差异高达30%,但仍可以呈现与天然蛋白质相符的形状。研究人员提到,他们现在仍不清楚人工智能究竟如何在变更氨基酸串行的同时,仍产生正确的形状。

这些人工智能所生成的蛋白质要被用于药物,还需要在实验室中进行长时间的测试,但是研究人员提到,这种蛋白质设计方法比蛋白质设计技术定向演化(Directed Evolution)更强大,能够加速所有用途的新蛋白质开发。