MIT用胺基酸串行搭配机器学习预测复杂蛋白质结构

来自麻省理工学院的研究团队近来通过机器学习技术，打造利用胺基酸链段预测蛋白质结构的模型，也就是能够理解个别胺基酸链段如何决定蛋白质功能，对于生物相关研究、药物开发、蛋白质设计和测试都是一大进展，未来，该机器学习模型能够让研究人员更专注于修改特定胺基酸片段，改善蛋白质工程。

蛋白质是由胺基酸分子线性链结而成，个别胺基酸分子通过肽键链接，根据链结中的物理相互作用和串行，折叠成相当复杂的3D结构，而这些不同的结构决定了蛋白质在生物学上的功能，因此，了解蛋白质的3D结构对于预测蛋白质对特定药物的反应是有价值的。

过去数十年来的研究，主要都是用多种成像技术来研究蛋白质结构，而这些研究只能了解非常小部分的蛋白质结构，近来，研究人员开始用机器学习模型根据胺基酸串行，来预测蛋白质结构，但是，由于胺基酸串行的多样性，会生成非常类似的结构，再者，也没有足够多的结构样本来训练模型。

因此，有别于过去直接预测结构的方法，MIT研究团队将预测蛋白结构的数据转译成以数值表示的矢量值，为此，团队用已知的蛋白质结构近似度，来监督机器学习模型，让模型学习特定氨基与蛋白质功能的关系，首先，利用3D蛋白质结构当作训练指引，来简单地计算每个胺基酸在蛋白质串行的位置，接着，再通过计算出的位置代表值当作机器学习模型输入数据，根据每个胺基酸链段来预测蛋白质功能。

训练过程总共使用了22,000个来自蛋白质结构数据库SCOP的蛋白质数据，该数据库包含数千个依照相似结构和胺基酸串行分类的蛋白质，团队利用SCOP数据库分类的类别，模型针对每对蛋白质，计算蛋白质结构真实相似分数，因此，每个蛋白质结构的矢量会包含与其他串行相似程度的信息，再根据该相似分数预测胺基酸串行的3D结构。最后模型会将比对预测的相似分数和SCOP真实的相似分数的结果，当作回传到编译器的信号。

同时，模型还会针对每个胺基酸串行矢量预测联系地图（contact map），也就是呈现出每个胺基酸在蛋白质预测结构中，与其他胺基酸之间的距离，该模型还会将预测的联系地图与SCOP数据库的联系地图拿来做比较，反馈到模型中，如此一来，能够帮助模型学习胺基酸在蛋白质结构中正确的位置，进一步更新胺基酸功能。