Protein Data Bank 50年回顾与结构生物学发展(上)
今年是“蛋白质结构数据库” Protein Data Bank 成立的第50年。按以往十年大庆的惯例,PDB 将在今年举办一系列研讨会:回顾 PDB 的发展历程,细数结构生物学的里程碑事件,讨论当前生物化学与分子生物学的前沿,展望交叉学科的发展等等。
下面,我带大家回顾 PDB 50年来说不上波澜壮阔却依然激动人心的发展历程。本文是上篇。
目录:
上篇 – PDB的历史革沿与里程碑式的生物大分子结构
下篇 – 结构生物学领域的诺贝尔奖
1971年夏,James Watson主持召开了冷泉港实验室年度会议,当年的主旨是“三维尺度上的蛋白质结构与功能”。
http://library.cshl.edu/symposia/1971/index.html
这次会议因为英国生物物理学家、埃尔斯米尔的菲利普斯男爵David Chilton Phillips在结束致辞中的一句预言,而在后来被人们一次又一次追溯,并视此次会议划分了两个时代。Phillips在闭幕式上向小布拉格致敬,“正如劳伦斯·布拉格爵士所言,我们仍处于生物结晶学的开端……”,并预言:蛋白质晶体学的时代来了!
小布拉格与乃父老布拉格共同建立了晶体学,并分享了1915年诺贝尔物理学奖;父子二人是第一对诺贝尔奖父子。小布拉格时年25岁,也是迄今最年轻的诺贝尔物理学奖得主。
大会举办时,小布拉格已风烛残年,不能出席。会议结束后21天,小布拉格辞世。一个时代落幕,另一个时代开启。
右图为 David Phillips。
PDB经过了多轮扩大,欧洲与日本相继加入,在本地区建立了各自的数据存储分中心。在近两年美国政府不断在各个科学技术领域限制中国参与和合作的大背景下,我国可以考虑效仿日本建立PDB Japan (PDBj),而建立PDB China,即数据存贮中心设立在我国国内而隶属于wwPDB的分支机构。
1998 – 欧洲建立PDB分中心
欧洲生物信息研究所 (European Bioinformatics Institute, EBI) 的大分子结构数据库 (Macromolecular Structure Database, MSD) 成为PDB数据的一个新存储中心。
1998 – PDB移交给RCSB
1998年10月,PDB被移交给Research Collaboratory for Structural Bioinformatics (RCSB),并与1999年6月移交完毕,新的负责人是罗格斯大学的Helen M. Berman。
2000 – 日本建立PDB分中心
大阪大学建立了PDB的新数据存储中心PDB Japan (PDBj)。
2003 – wwPDB成立
PDB 三大分支:RCSB PDB、欧洲PDB (PDBe)、日本PDB (PDBj) 联合组成世界PDB (worldwide PDB)。
2006 - BMRB 加入wwPDB
生物核磁共振数据库 (Biological Magnetic Resonance Data Bank, BMRB) 加入wwPDB。
2010 – wwPDB基金会成立
PDB一直在频繁地更新数据上传和存贮政策,以保持不同时期注册并上传的结构文件的格式、内容等的一致,以及适应时代的发展。例如,2016年开始,结构生物学家可以随分子结构上传自己的QRCID和实验资金来源。
但是,被视为重大的政策变革,无一例外都涉及获取结构的实验技术的发展——每次新的结构解析手段标准化后,由该实验技术采集的分子结构在注册上传PDB时必须要附带相应的辅助数据,以在精确地表征分子结构之余,给予科学界同仁足够多的能够重复的数据参数。
1989 - IUCr发布数据存储政策
国际晶体学联合会(International Union of Crystallography, IUCr) 发布数据存储政策,包括数据存储方式、结构获得方法等6条规定。
2005 – PDB最后一次以邮寄方式分发数据
自1990年,PDB采用邮寄CD-ROM碟片的方式分发整个数据库的数据;截至2005年1月初,传统的数据存储方式将需要超过50张CD碟片。考虑到碟片数量庞大,PDB自2005,将一年一度地将所有数据存贮在DVD碟片上,以供索取。当年,所有数据可以存在8张DVD碟片上。
2007 – PDB首次发布重整数据 (remediated data)
随着PDB不断扩容,数据一致性问题逐渐浮现。具体来说,由不同实验方法获得的结构数据可能存在不一致,wwPDB决定定期审视结构数据处理流程和分子结构坐标。
2008 – PDB要求存入获取结构的实验方法
自2008年2月1日,PDB强制要求所上传的结构必须包括:晶体结构的静态结构因子的强度 (structure factor amplitudes/intensities) 或核磁共振结构的约束条件。
2010 – PDB要求存入化学位移数据
自2010年12月6日,PDB强制要求存入核磁共振结构的化学位移信息。
2013 – 新结构的提交论文稿件须包含“验证报告”
结构的验证报告(validation report) 包含分子的几何和实验数据的核验结果,这是结构注释 (annotation) 过程的一部分。
由于结构的验证报告可以在对坐标文件保密的同时提供对结构质量的评估,因此,PDB 鼓励期刊编辑和审稿人向结构提供者要求验证报告,作为手稿提交和审阅过程的一部分。报告带有日期戳,并显示wwPDB处理站点徽标。这可以为相互竞争的结构生物学研究组提供首先提交结构的证据。
PDB 验证。
2014 – 大型分子结构合并为一个文件
自2014年12月,大型分子结构(超过62条链或99999个原子)将使用PDBx/mmCIF文件格式,合并为一个文件,并被赋予新的PDB id。
2014 – 启用OneDep
OneDep是一个用于存储(deposition)、筛选查看 (biocuration)、验证 (validation) 生物大分子结构的流程一体化平台。
OneDep工作流程 (Young et al., Structure 25, 536–545)。
2016 – PDB要求存入电子体积图
电子显微镜数据库 (EMDataBank, EMDB) 首页。
2016 – NMR & 3DEM验证报告全部公开
2017 – 启用PDB-Dev
许多复杂的大分子复合体的结构表征越来越多地采用综合建模方法进行,在这种方法中,使用互补的实验和计算技术来确定结构。PDB-Dev用于收集、存档并分发通过综合建模获得的结构模型。
2017 – 启用PDB结构的版本控制系统(versioning system)
2019 – 改进配体结构验证并提供电子密度系数
配体结构验证(Ligand Validation) 示例。
电子密度系数(Electron Density Map Coefficient) 示例。
2020 – wwPDB的电镜验证报告全部公开
2020 – 糖类化合物数据重整
全档案库级别的糖类化合物数据重整 (carbohydrate remediation) 项目在2020年7月完成,超过14000个结构被重新公布(re-release)。这一数据更新包括多种寡糖(oligosaccharides):糖基化 (glycosylation);代谢产物如麦芽糖、蔗糖、纤维素碎片 (cellulose fragments);糖胺聚糖 (glycosaminoglycans) 如肝素 (heparin) 和硫酸肝素 (heparan sulfate) 碎片;表位模式 (epitope patterns) 如A/B血型抗原和H型或Lewis型干细胞;许多人造碳水化合物模仿或对抗天然产物。
PDB的结构数量在早期以近似指数的速度增长,通过了1982年的100个注册结构里程碑,1993年的1000个,1999年的10000个,以及2014年的100000个。现在PDB的结构数量的增长趋于恒定,大约每年增加10000个。
成立之初,1973年,PDB仅有9个已经被解析的蛋白质三维结构:
1973 – 首个 tRNA 结构
1973年,MIT的Rich研究组的朝鲜裔科学家Kim Sung-Hou (김성호, 金聖浩) 在Science 发表了第一个分辨率为4 Å的tRNA骨架结构;次年,Rich 研究组获得了一个分辨率为 3 Å的tRNA结构。
1974年8月,剑桥大学Klug研究组的Jon D Robertus在 Nature上发表了另一个3 Å的tRNA结构。
1979 – 首个DNA (z-DNA) 结构
MIT的 Rich 研究组的中国科学家王惠钧 (Andrew H. J. Wang, 1945 -) 获得了第一个 z-DNA结构。后来,王惠钧两度出任台湾地区伪中央研究院副院长。
Z-DNA与B-DNA结构比较示意图。Wang et al., Nature 282, 680–686 (1979).
1981 –首个B-DNA结构
加州理工的Horace R. Drew解析出第一个B-DNA结构。
第一个B-DNA结构(PDB id: 1BNA)。
1982.5.26 – 第100个结构
1989 – 首个NMR结构:BDS-I
在一项美国马里兰国家卫生所 (NIH)与西德基尔大学的联合研究中,Paul C. Driscoll等科学家首次利用NMR解析了蛋白质 BDS-I 的结构。
(左)BDS-I 蛋白 (PDB id: 1BDS; Driscoll et al., Biochemistry 28, 2188-2198);(右)该蛋白提取自沟迎风海葵(俗名:snakelocks anemone,拉丁名:Anemonia sulcata)。
1993.7.15 – 第1000个结构
1999.7.23 – 第10000个结构
2000 –首个核糖体 (ribosome) 结构
耶鲁大学Thomas Arthur Steitz 研究组的博士后研究员、克罗地亚科学家Nenad Ban: 大核糖体亚基的X射线晶体结构,证明核糖体是核酶 (ribozyme)。
剑桥大学MRC分子生物学实验室的Venki Ramakrishnan研究组的二年级博士生Andrew P. Carter解析了小核糖体亚基(30S)的X射线晶体结构。二年级就做出了让自己导师的诺贝尔奖的工作……
柏林马普分子遗传所的以色列女科学家Ada Yonath组的Frank Schluenzen解析了小核糖体亚基的3.3 Å的X射线晶体结构,并证明核糖体的解码中心完全由RNA构成。
2009年Steitz、Ramakrishnan、Yonath因其在核糖体方面的研究获得诺贝尔奖。
大亚基(右)1ffk, Ban et al., Science 289: 905-920 (2000) ;小亚基(左)1fjg: Carter et al., Nature 407: 340-348 (2000),1fka: Schluenzen et al., Cell 102: 615-623 (2000)。
1991 – 首个电子显微镜蛋白3D结构
剑桥大学MRC分子生物学实验室的 Richard Henderson (1945-) 及合作者于1990年在J. Mol. Biol.发表了使用电子显微镜解析膜蛋白细菌视紫红质 (bacteriorhodopsin)的结构的工作,并在次年将结构存入PDB。这是当时被解析出的第二个膜蛋白结构。Henderson 本人于2017年因此荣获诺贝尔化学奖。
细胞视紫红质结构(PDB id: 1BRD)。Henderson et al., JMB 1990.
2008.4.29 – 第50000个结构
2011 – 首个由自由电子激光器获得的结构
此项工作由位于汉堡的德国电子加速器 (Deutsches Elektronen-Synchrotron, DESY) 的自由电子激光科学中心 (Center for Free-Electron Laser Science, CFEL) 牵头,联合多达20个单位共同完成,使用飞秒光源,由纳米晶体解析了光系统 I (Photosystem I) 的结构。
自由电子激光器(X-ray free electron laser 或free-electron laser, FEL) 所产生激光束其光学性质与传统激光器一样,具有高度相干、高能量的特点,不同之处在于其产生原理。一般激光产生方法是用特定物质激发至激发态以作为激光介质,其激光产生是把原本处于激发态的原子或分子激发以产生激光;FEL的光原来自同步辐射光源,其原理是利用聚频磁铁 (undulator) 或增频磁铁 (wiggler) 的磁场把高速前进的电子束多次改变方向,从而把电子的动能转为光子。在这些光子与电子束的相互作用下,光得以放大,而电子束也继而以同步方式发放光束,就此得出了激光。由于电子束在磁场中是自由移动的,故命名为“自由电子激光器”。
Chapman et al., Nature 470 (2011) 73-78.
2014.6.25 – 第100000个结构
2019.3.20 – PDB的第150000个结构
2020 – 首个新冠病毒主蛋白酶及抑制剂复合物结构
新冠疫情爆发之初,中国科学就全力投入了对新冠病毒的研究。在2020年1月末,来自上海免疫化学所的杨海涛、清华生科院与药院的饶子和、上海药物所的蒋华良的联合团队便解析出第一个新冠病毒主蛋白酶及抑制剂复合物结构,为快速搜寻具备临床潜力的候选药物提供依据。包括结构解析在内的所有中国科学家完成的研究,都在将来的历史书上有力证明了我国政府在新冠疫情爆发的早期就秉持透明公开的态度,与世界各地在抗击疫情方面合作共享数据与科研成果。
Jin et al., Nature 2020.
2020年的CASP14比赛,DeepMind团队的Alphafold2 以石破天惊之势将蛋白质分子结构的预测提升到可与实验结果媲美的境地,从而成为2020年末最大的科技新闻之一。
关于Alphafold2 的更多信息,请参见笔者去年的两篇文章:
2020.12.11 - AlphaFold2领队Jumper奇人 - 我们需要什么样的复合型人材?
2020.12.6 - 专访 | AlphaFold2是一艘曲率飞船
(未完待续)
以上。
2021.5.7 深圳