查看原文
其他

汇编|AlphaFold之于医药研发的意义

小王随笔 小王随笔 2023-01-13

前言:眼见为实。Seeing is believing.


笔者的夫人是有肿瘤免疫博士学位的新药立项经理,因为最近与同行交流时常听闻 AlphaFold 如何如之何,便问笔者 AlphaFold 对药物开发到底有何用,优势在哪,有待提升之处又在哪。


本月(2021.10),3篇关于 AlphaFold 的评论文章先后见刊于《自然·结构与分子生物学》、《自然·药学》、《自然综述·药物发现》。因为内容有重叠,笔者汇编了这3篇评论,来回答夫人的问题,也希望能对不懂深度学习的药物研发立项人员、医药投资人士、相关产业的媒体工作者有所帮助。


目录:

  1. AlphaFold 对药物研发的作用 

  2. AlphaFold 的局限

  3. 蛋白质-配体问题

  4. AlphaFold 对业界的启发



AlphaFold 对药物研发的作用 

现在,AF 仅能以相当高的精度预测单链蛋白的结构(single-chain protein),AF-multimer 则能够预测蛋白-蛋白复合体的结构。


AF 是结构生物学的游戏规则改变者(game-changer)。夸张地说,“AF 使每个人都成为了结构生物学家”(Fiona Marshall,默克· 药物发现首席科学家)。AF 大大降低了获取蛋白结构的时间和成本,加速了基于蛋白质结构的药物研发。


例如,在预测人类蛋白质组方面,在 AF2 公布预测结构前,实验和先前的预测方法提供了人类蛋白质组 47% 的结构,而 AF2将此比例提高到 75%;之前,人类蛋白质组有4832个蛋白完全没有结构信息,AF2 将此数目降低到 29 - 1336(根据预设的精确度阈值)。


许多大型药企都建立有自己的结构生物学团队,侧面证明结构生物学对药物研发有重要意义。因此,结构生物学的任何进步一定为药企所欣喜和欣赏。


AF 或 RoseTTAFold 可以被嵌入已有的 CADD 工作流:在前端,加速设计能形成稳定晶体结构的蛋白质;在后端,辅助分析X-ray等数据。


另一方面,在病原体(pathogen)中辨认药物靶点可能是 AF 短期内最容易实现的目标。2021年8月,DeepMind团队与欧洲分子生物学实验室(EMBL)联合开放的“AlphaFold蛋白质结构库”(AlphaFold Protein Structure Database)包含了多种病原体的全蛋白质组的预测结构,如

  • 利什曼原虫(leishmania infantum)、

  • 结核杆菌(mycobacterium tuberculosis)、

  • 恶性疟原虫(plasmodium falciparum)、

  • 克氏锥虫(trypanosoma cruzi)。


我们也应当清楚:药物设计,特别是小分子药,依然高度依赖设计者的经验。在设计小分子药时利用蛋白质结构,仅仅是药物研发全产业流程中很小的一部分,并且极少成为限制新药上市的瓶颈,因此知晓蛋白质结构在药物设计和研发方面的权重没有那么大。


AlphaFold 的局限

AF 是基于深度学习的蛋白结构预测方法,它略过了蛋白质的折叠过程,直接从序列预测出最终的三维结构

AF 数据应用于药物设计有以下限制:

(1)配体(ligand):预测模型缺乏配体,因此不能提供蛋白与配体作用的数据;

(2)构象(conformation):不能确定所预测的蛋白质结构处于何种构象状态;

(3)内禀无序区域(intrinsic disordered region):对能采取多个构象的内禀无序蛋白(IDP)或者蛋白的内禀无序区域的预测结果差;

(4)精度(accuracy):预测结构的精度存在不确定性,即使同一个蛋白的不同区域的预测精度也可能不同;

(5)致病变异(pathogenic variant):在预测和建模蛋白的致病变异方面作用有限。


AF 的下一阶段工作应该包含对蛋白构象运动改变的探索。如果蛋白结构预测算法能给出蛋白一系列不同的构象,特别是活性位点在不同构象中的结构,那么对药物设计将特别有用。Jumper 说,现在 AF 无法区分蛋白的活性、非活性构象;AF 仅能预测它所认为的蛋白质最有可能处于的状态。不仅如此,AF 常常给出蛋白含有一个空口袋以及错误排列的侧链的、位于非活性状态的结构。


AF 所预测模型质量参差不齐,这是应用 AF 预测模型的大阻碍,因为它意味着并非所有AF2所预测的模型都等同重要。作为补救,AF 对预测模型的每一个残基进行预测信心打分,获得per-residue 精度(pLDDT),尤其有用。


例如,即使整体预测质量较差的蛋白,也可能存在高精度的局部结构。


又例如,在AF的结构打分中,那些得分特别低的区域对应着内禀无序区域。—— 这是反向运用AF的结构打分。


因此,用户要善加利用 AF 产出的综合信息,而不要仅仅着眼于三维结构。



蛋白质-配体问题


药研工作者最想要的可能是:一种快速、健壮、便宜的方法来识别蛋白质与配体(小分子、DNA、辅因子、金属原子、其它蛋白)的结合靶点。

基于结构的药物设计(SBDD)包括小分子药物、抗体免疫原、蛋白质类药物的设计,涉及:

  • 蛋白质与配体的结合位点、结合构象,

  • 蛋白质的变构口袋(allosteric pocket)的成药性(druggability),

  • 蛋白质的酶活位点结构,

  • 蛋白质-蛋白质的相互作用及复合体结构

  • 蛋白质-DNA的相互作用及复合体结构,

  • 蛋白质-RNA的相互作用及复合体结构,

  • 蛋白质的点突变对结构的效应。


上面列举的问题,AF 或多或少都暂时无能为力。


对 SBDD 最重要的是实验解析的或者计算预测的结构的精度(accuracy),包括氨基酸残基侧链的准确位置,因为侧链位置决定了:结合口袋(活性位点)的形状,类药配体的与结合口袋的亲和力。


尽管学界和业界已经开发出茫茫多的工具来处理蛋白质与配体的结合(binding),这个问题距离被解决还很遥远。


长期看,解决“蛋白质-配体问题”有三大困难:


(1)训练数据太少。

用于训练 AF2 的PDB(Protein Data Bank)含有约17万个蛋白结构(现在PDB含有约 18.3万个蛋白结构)。试想仅用1700个结构进行训练,那么 AF2 一定不会有这么好的预测效果。因此,如果想用深度学习方法解决蛋白质-配体问题,必然需要多得多的蛋白质-配体结合数据。这一类数据在PDB中很少。


(2)化学相互作用更复杂。

蛋白质仅仅是20种常见氨基酸链接而成的高分子,在做计算预测时仅需要考虑20种氨基酸残基之间的相互作用。但是,作为对比,小分子配体的数量则是天文数字(10^60)。如此多的配体小分子,令计算蛋白质-配体相互作用,必须要囊括相当数量的不同配体,才能有效探索配体分子的化学空间


另一方面,蛋白质的活性区域本身是灵活的(flexible),并非单一的刚性构象,并且蛋白质与配体结合伴随有活性区域的构象改变


这意味着,蛋白质-配体问题比蛋白质折叠问题更复杂,运算量很可能会大得多。


(3)各大制药公司的数据保护政策。

尽管各大制药公司各自积累了大量蛋白质-配体数据,各自为政、以邻为壑的数据保护政策,使得分散的数据不能集合起来一齐训练,形成合力。


简单地总结:因为蛋白质-配体问题更复杂,深度学习需要大得多的训练集;然而蛋白质-配体数据很稀缺,并且工业界出于竞争不与其它公司分享或公开数据加剧了这种稀缺。




AlphaFold 对业界的启发

学界业界需要多方面地在不同场景不同问题中测试 AF 的有效性和极限,从而明确 AF 能做什么,不能做什么。AF 的确是变革性的(tranformational),但学界业界还有待消化 AF 引发的变革。AF2 的 Nature 论文发表后,学术团队已经快马加鞭行动了起来,各式各样的 AF 衍生工具层出不穷,如 ColabFold这是学界消化 AF 的方式。


例如,因为AF预测结构的准确性存在不确定,需要大规模的前瞻性测试(prospective testing),而不是回顾性研究(retrospective study),来验证预测模型的有效性和这些模型多大程度上可以被利用。具体来说:在一组由实验解析和计算预测的新的活性位点,考虑数以亿计的不同配体与之结合的效果,作虚拟计算筛选;然后,对位于排序顶端的几百个活性位点与配体的组合,做湿实验验证。


AF 带来的数据采集、标注、分享的标准化、公开化,对临床数据有重大的示范和启发意义。在妥当地解决临床数据的保密问题的基础上,将不同地区、不同国家的临床数据格式标准化,建立统一的国际协议,如同PDB内的结构格式一般,简化分析过程中的数据清洗和理解。


最后 - 我反正信了

有些公司,在通稿或者会议中,而不是论文或专利中,宣传自研的蛋白质结构算法能够很好地预测抗原抗体结合,至于他们能不能做到,Jumper 202110月说 AlphaFold 反正做不到。

As a limitation, we observe anecdotally that AlphaFold-Multimer is generally not able to predict binding of antibodies and this remains an area for future work. ” —— Jumper (2021.10)


并且,这些公司宣称自研的蛋白质结构算法超过、大幅超过、远远超过、降维打击般地超过 AF2 和 RoseTTAFold,至于诸位信不信,我反正信了。



以上。

2021.10.21 于深圳


参考文献

  • Hao Wu (Harvard) et al., Could AlphaFold revolutionize chemical therapeutics? Nat. Struct. Mol. Biol. 2021.10 
  • Janet M. Thornton (EMBL-EBI) et al., AlphaFold heralds a data-driven revolution in biology and medicine, Nat. Med. 2021.10
  • Asher Mullard, What does AlphaFold mean for drug discovery? Nat. Rev. Drug Discovery, 2021.10
  • Jumper et al., Protein-complex prediction with AlphaFold-multimer, arXiv, 2021.10


推荐阅读

>> AlphaFold2所用序列库大超凡
>> 打开盲盒:AlphaFold2预测了人类全蛋白质组
>> 从David Baker的师承聊聊天和号中文操作系统
>> AlphaFold2领队Jumper奇人
>> 专访 | AlphaFold2是一艘曲率飞船


>> 911二十年:美国公知的反思
>> 如何看希腊奥运举重选手因为贫困而退役?
>> 力敌千军:世界举王吕小军
>> 以色列是当代纳粹国家
>> 回忆2019年的芝大毕业典礼
>> 时隔14年芝大枪声再起,英才罹难

>> Science编辑部严厉批评美国FDA放行Alzheimer‘s新药
>> 首届苏州中国生物计算大会的闻与感
>>《十亿美元分子》福泰制药初创的失败故事

>> Protein Data Bank 50年回顾(下五)2003年诺奖水通道蛋白
>> Protein Data Bank 50年回顾(下四)Wüthrich&蛋白质的核磁共振解析
>> Protein Data Bank 50年回顾(下三)ATP合成酶&钠钾泵
>> Protein Data Bank 50年回顾(下二) 光合作用中心
>> Protein Data Bank 50年回顾(下一)Klug与晶体电子显微学
>> Protein Data Bank 50年回顾与结构生物学发展(上)

>> 母婴御守:塞麦尔维斯
>> 全世界首次携手抗疫:詹纳与牛痘接种术
>> 哈维:我仅做真理的党人
>> 天才永生:维萨里与实证解剖
公众号说明
“小王随笔” @xiaowang_essay 是小王的个人号,内容不垂直,目标不明确。本号的宗旨截取自小王的本科和博士母校的校训:理实交融,益智厚生。由于小王的专业背景,本号的内容主要是:科学、科学史等,特别地,劝退专业化学、生物方面的可能会多一点。鉴于小王的价值观:“天不生教员,万古长如夜”,viva la commune,也可能会随性地写一些激昂文字。因为小王出生成长于东部地区的一个世俗而传统的老回回 muslim 家族,本号也会关注历史、社会学、民族史、民族学等。干货私货皆有,凭君自取。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存