查看原文
其他

汇编 | AlphaFold无力应对点突变

小王随笔 小王随笔 2023-01-13

功能的基础是结构,由单点突变引起的蛋白质结构、功能改变是精准健康、个性化医疗所关注的一个焦点。小王在公司内相关专业领域的同事很关心:AlphaFold 能否帮助生物信息学和遗传学家,从蛋白质结构的角度理解单点突变?


Human Gene Mutation Database (HGMD) 含有 超过8000 个基因的 203000 条基因损伤(2017年),每年约增加 17000 条。[0]


AlphaFold 蛋白质数据库在其网站的FAQ中明确指出 AlphaFold 没有在预测点突变方面被验证过。特别地,对于能显著破坏蛋白质稳定性的点突变,AlphaFold 很可能不会预测出一个与天然序列不同的结构。




上周(2022.1.19),Nature Structural & Molecular Biology 在线刊登了一篇编辑部来信,仅2页的短幅通讯,用三个明确的反例说明 AlphaFold 无力应对错义点突变missense mutation)。



这三个例子举得很好,小王认为值得与大家分享一下。


这三个反例分别包含2个结构:天然结构(WT)和结构被破坏的突变体(structure-disrupting mutation)。


例子1. UBAs of hHR23a

DNA修复蛋白 hHR23a 的泛素关联结构域(ubiquitin-associated domains, UBAs)分别在包埋中心含有一个亮氨酸(L198 in UBA1, L355 in UBA2[2]。


实验证明:这个亮氨酸对蛋白质结构的稳定性至关重要,将其单点突变为丙氨酸,例如 L198A 或 L355A,会降低 UBA 与泛素的结合能力,令整个 UBA 结构域变为内禀无序 [3]


也就是说: UBA1(或UBA2)的天然结构与 UBA1-L198A(或 UBA2-L355A)突变体结构截然不同。


但是,AlphaFold2 对二者的预测却几乎完全一致;更重要地,二者预测结果的置信度自我打分 pLDDT 的平均值是84(满分100),很高。


左图[1],差别非常细微:仅仅 R179 的侧链向198位偏转,I170 与198位距离拉长,突变体的整体结构相对于 WT 略松散。右图[2],UBA1, UBA2 等各结构域的结合方式;相应 WT 的 PDB id 为 1OQY。

多说一句,本篇通信作者 Kylie J. Walters 正是在2003年阐明 DNA修复蛋白 hHR23a 结构以及 UBA 结构域的文章首作者 [2]。—— 这就是 domain knowledge。


例子2. BRCT repeats of BRCA1

乳腺癌蛋白1breast cancer 1, BRCA1)的 BRCT结构域重复片段的突变 A1708E 会破坏肿瘤抑制活性,引发早发型乳腺癌,并且会降低 BRCA1 C端稳定性。


类似地,AlphaFold2 对 BRCT 的 WT 和 A1708E 结构的预测几乎完全一致,Ca-RMSD 仅相差 0.6 Å,并且天然结构和突变体结构的 pLDDT 打分分别为95、94,极高。




例子3. MyUb of Myosin VI

肌球蛋白VI 有一个 helix-turn-helix-like 结构域,MyUb;它含有一个 RRL 模体,由第1116位残基到第1118位。因为 R1117 会与序列上相距较远的残基形成氢键,连接两条螺旋,突变体 R1117A 会降低整个结构域的稳定性。


然而,AlphaFold2 依然预测天然结构与突变体结构几乎完全一致;更甚者,突变体 R1117A 的 pLDDT 打分为90,甚至高于 WT 的89分。


左上图[1],右上图、下图[4]。



这三组结构都表明,AlphaFold2 对能够明显影响天然结构稳定性并使得构象发生大幅变化的点突变无能无力,用几乎相同的置信度预测天然结构和突变体结构。这当然是 AlphaFold2 的训练集内鲜有突变体结构的缘故。


事实上,研究发现,对绿色荧光蛋白(GFP)而言,用 AlphaFold2 去预测能够引起错误折叠的点突变的结构,预测结构的 pLDDT 打分与结构稳定性没有关联性 [5]。


这意味着,AlphaFold2 模型依据的是已知的序列和结构数据,而不是蛋白折叠的物理法则。这本是当然的,因为深度学习本身就是基于数据,而非基于物理。


但是,难道在学习过程中没有学到物理法则吗?那么,将 AlphaFold2 与基于物理的计算方法,如分子动力学模拟或蒙特卡洛模拟,恰当地结合,或许可以解决点突变结构预测的问题。言下之意是,仅依靠 AI 不够。实际上,Rosetta 即是基于物理的模型,RoseTTAFold 与 AlphaFold2 结合便是这种情况。


当然,在 PDB 中逐渐丰富点突变结构,也就是增大深度学习的训练数据集,也行。



本文完。

2022.1.25 于深圳


参考文献:

[0] Stenson et al., The Human Gene Mutation Database, Hum Genet (2017) 136:665–677 
[1] Can AlphaFold2 predict the impact of missense mutations on structure?
[2] Walters et al., PNAS 100 (22) 12694
[3] Wang et al., Biochem. 2003, 42, 46, 13529
[4] Biancospino, M. et al. Nat. Commun. 10, 4974 (2019)
[5] Using AlphaFold to predict the impact of single mutations on protein stability and function


推荐阅读

AlphaFold 新闻、评论、人物

AlphaFold2 论文精读

行业观察

蛋白质科学史


公众号说明
“小王随笔” @xiaowang_essay 是小王的个人号,内容不垂直,目标不明确。本号宗旨:理实交融,益智厚生。内容主要是:科学、科学史等。鉴于小王的价值观:“天不生教员,万古长如夜”,viva la commune,也可能随性写一些激昂文字。又,小王出生成长于东部地区的一个世俗而传统的老回回 muslim 家族,本号也会关注历史、民族学等。干货私货皆有,凭君自取。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存