汇编 | AlphaFold无力应对点突变
功能的基础是结构,由单点突变引起的蛋白质结构、功能改变是精准健康、个性化医疗所关注的一个焦点。小王在公司内相关专业领域的同事很关心:AlphaFold 能否帮助生物信息学和遗传学家,从蛋白质结构的角度理解单点突变?
AlphaFold 蛋白质数据库在其网站的FAQ中明确指出 AlphaFold 没有在预测点突变方面被验证过。特别地,对于能显著破坏蛋白质稳定性的点突变,AlphaFold 很可能不会预测出一个与天然序列不同的结构。
上周(2022.1.19),Nature Structural & Molecular Biology 在线刊登了一篇”编辑部来信“,仅2页的短幅通讯,用三个明确的反例说明 AlphaFold 无力应对错义点突变(missense mutation)。
这三个例子举得很好,小王认为值得与大家分享一下。
这三个反例分别包含2个结构:天然结构(WT)和结构被破坏的突变体(structure-disrupting mutation)。
DNA修复蛋白 hHR23a 的泛素关联结构域(ubiquitin-associated domains, UBAs)分别在包埋中心含有一个亮氨酸(L198 in UBA1, L355 in UBA2)[2]。
实验证明:这个亮氨酸对蛋白质结构的稳定性至关重要,将其单点突变为丙氨酸,例如 L198A 或 L355A,会降低 UBA 与泛素的结合能力,令整个 UBA 结构域变为内禀无序 [3]。
也就是说: UBA1(或UBA2)的天然结构与 UBA1-L198A(或 UBA2-L355A)突变体结构截然不同。
但是,AlphaFold2 对二者的预测却几乎完全一致;更重要地,二者预测结果的置信度自我打分 pLDDT 的平均值是84(满分100),很高。
多说一句,本篇通信作者 Kylie J. Walters 正是在2003年阐明 DNA修复蛋白 hHR23a 结构以及 UBA 结构域的文章首作者 [2]。—— 这就是 domain knowledge。
乳腺癌蛋白1(breast cancer 1, BRCA1)的 BRCT结构域重复片段的突变 A1708E 会破坏肿瘤抑制活性,引发早发型乳腺癌,并且会降低 BRCA1 的C端稳定性。
类似地,AlphaFold2 对 BRCT 的 WT 和 A1708E 结构的预测几乎完全一致,Ca-RMSD 仅相差 0.6 Å,并且天然结构和突变体结构的 pLDDT 打分分别为95、94,极高。
肌球蛋白VI 有一个 helix-turn-helix-like 结构域,MyUb;它含有一个 RRL 模体,由第1116位残基到第1118位。因为 R1117 会与序列上相距较远的残基形成氢键,连接两条螺旋,突变体 R1117A 会降低整个结构域的稳定性。
然而,AlphaFold2 依然预测天然结构与突变体结构几乎完全一致;更甚者,突变体 R1117A 的 pLDDT 打分为90,甚至高于 WT 的89分。
这三组结构都表明,AlphaFold2 对能够明显影响天然结构稳定性并使得构象发生大幅变化的点突变无能无力,用几乎相同的置信度预测天然结构和突变体结构。这当然是 AlphaFold2 的训练集内鲜有突变体结构的缘故。
事实上,研究发现,对绿色荧光蛋白(GFP)而言,用 AlphaFold2 去预测能够引起错误折叠的点突变的结构,预测结构的 pLDDT 打分与结构稳定性没有关联性 [5]。
这意味着,AlphaFold2 模型依据的是已知的序列和结构数据,而不是蛋白折叠的物理法则。这本是当然的,因为深度学习本身就是基于数据,而非基于物理。
但是,难道在学习过程中没有学到物理法则吗?那么,将 AlphaFold2 与基于物理的计算方法,如分子动力学模拟或蒙特卡洛模拟,恰当地结合,或许可以解决点突变结构预测的问题。言下之意是,仅依靠 AI 不够。实际上,Rosetta 即是基于物理的模型,RoseTTAFold 与 AlphaFold2 结合便是这种情况。
当然,在 PDB 中逐渐丰富点突变结构,也就是增大深度学习的训练数据集,也行。
本文完。
2022.1.25 于深圳
参考文献:
AlphaFold 新闻、评论、人物
AlphaFold2 论文精读
蛋白质科学史