AlphaFold生成人类蛋白质组最完整最准确图片,数据库免费开放

DeepTech深科技

发布时间: 07-2506:26鲲鹏计划获奖作者,DeepTech深科技官方账号,优质科技领域创作者

时隔 7 天,AlphaFold 再次轰动学术界。

继几天前在 Nature 发表论文、并开源 AlphaFold2 源代码之后,7 月 22 日,AlphaFold 的研究人员再次在 Nature 发文,论文题为《使用阿尔法折叠进行高度准确的蛋白质结构预测》(Highly accurate protein structure prediction with AlphaFold)。

图丨相关论文(来源:Nature

AlphaFold 背后团队 DeepMind 的创始人德米斯哈萨比斯(Demis Hassabis)告诉媒体:“我们使用 AlphaFold 生成了人类蛋白质组最完整、最准确的图片。我们相信这是迄今为止人工智能对推进科学知识所做的最重要贡献,也是人工智能可以为社会带来的各种好处的一个很好的例证 。”

阐述本次论文成果之前,先回顾一下 AlphaFold 几天前的论文。7 月 16 日,DeepMind 在 Nature 上发表文章,公布了 AlphaFold2 在去年 CASP 比赛(自 1994 年以来每两年进行一次的全球范围内的蛋白质结构预测竞赛)上破解蛋白质结构的详细信息,并表示 AlphaFold2 可在几分钟内破译一般蛋白质的三维结构,还能预测一个由 2180 个氨基酸相连的大蛋白质的结构。

图丨 AlphaFold 对自各种生物体的预测示例(来源:DeepMind)

而昨天发表的论文,阐述了 AlphaFold 更 “震撼” 的结构预测结果,其数据集涵盖了人类蛋白质组 58% 氨基酸的结构位置预测结果,其中 36% 的氨基酸结构预测果达到了较高置信度。

西湖大学特聘研究员、西湖欧米联合创始人郭天南博士告诉 DeepTech,58% 的比例是史无前例的。但他也指出,蛋白质非常复杂,有时候单个氨基酸或者其化学修饰就可以影响整个蛋白质的功能。因此,能预测 58% 的氨基酸结构位置,并不代表可以预测 58% 蛋白质的功能或者某个蛋白质功能的 58%。

在蛋白水平上,AlphaFold 对 43.8% 的蛋白中的至少四分之三的氨基酸序列给出了可信预测。西湖大学生命科学学院研究员卢培龙评价称,这是首次以如此好的精度和广度,把整个蛋白质组的蛋白结构全部预测出来。

包含约 35 万个蛋白结构的 AlphaFold 数据库,向全球免费开放

同时,DeepMind 还与欧洲生物信息研究所(EMBL-EBI),联合发布了由 AlphaFold 预测的蛋白结构数据库 ——AlphaFold Protein Structure Database。欧洲生物信息研究所是欧洲最著名的生命科学研究所,也是相关基金的颁布者,其地位相当于国内的中科院。DeepMind 与其合作,对于蛋白质结构从业者、以及药物研发从业者都会大有裨益。

欧洲生物信息研究所也发文称,这一数据库将对分子结构生物学研究产生 “立竿见影” 的影响,启动此前认为不可能、或不实际的研究项目,并能加快复杂蛋白复合体的模型建立。该研究所的主任伊万伯尼(Ewan Birney)将它称作是 “人类基因组图谱发布以来最重要的数据库之一”。即日起,全球科研人员都可免费使用该数据库。

据悉,该数据库已包含 AlphaFold 预测的约 35 万个蛋白结构。在人类蛋白质组方面,AlphaFold 对 98.5% 的人类蛋白结构已做出预测,此外还覆盖大肠杆菌、果蝇、斑马鱼、小鼠等研究时常用生物的蛋白结构预测。

据介绍,数据库将不断新增蛋白质三维预测结构。预计到 2021 年底,该数据库或包含 1.3 亿个蛋白结构,而 AlphaFold 则希望未来能给所有具有已知序列的蛋白提供预测结构。

(来源:DeepMind)

有人认为,人类基因组图谱的公布代表着基因组学革命的起点,那么此次数据库的公开,有望为生命科学带来 “一场革命”。

人类基因组中有很多蛋白,而用传统实验手段去解析不仅费时而且费力。五年前,人们还认为机器不可能预测蛋白质结构,而 AlphaFold 能在如此短的时间内做出来,这十分令人惊讶,同时也意味着蛋白质折叠的问题已经基本解决。

清华大学生命学院副研究员潘孝敬认为,作为一种 AI 辅助手段,AlphaFold 的数据库慢慢地会变成一本字典。由于它对单一蛋白结构的预测已经非常精准,这很有可能会倒逼科学家们更深入地理解蛋白质本身的机理。

AlphaFold 可促进新药靶点和候选药物的开发

西湖大学助理研究员鄢仁鸿告诉 DeepTech,蛋白质的结构决定着它的功能,而 AlphaFold 不仅能预测出大比例的蛋白质序列结构,也标出了置信区间,指明了可信度较高的地方,这对于科学家后续研究蛋白质功能大有帮助。

蛋白质是整个生命活动的基本原件,而蛋白质结构则是原件的基础。一直以来,科学家都是利用实验手段来获得蛋白质结构,借此得到对于蛋白质功能的理解,而很多药物的研发也是基于蛋白质结构。

因此这会为制药带来巨大帮助,很多蛋白都是药物的靶点,有了 AlphaFold 这样的高精度模型,方便人类对蛋白质进行功能分析、以及拓展下游应用,比如在制药行业中针对某些特定靶点去设计小分子或大分子药物,从而节省大量人力物力,为大众健康做贡献。

复旦大学生命科学学院教授李继喜,在 AlphaFold 开源之后,立马进行了尝试。他说:“我们团队已经开始应用这个工具,其版本的精度广度较之前好很多,对结构解析确实有很大的帮助。”

(来源:DeepMind)

概括来说,AlphaFold 至少可给科研圈带来两大帮助:

第一,对科学家来说,多了一种 “拿来即用” 的工具。有很多蛋白结构由于找不到相位或者分辨率较低,很难完全被解析出来。现在有了 AlphaFold2 的固定结构作为模板搜索,又直接又方便,还能提高解析程度。

第二,可与原有方法结合,去做生物信息无序区预测。

虽然震撼,但至少仍有三大不足

意义重大,但 AlphaFold 并非完美,有几个地方值得进一步开发。

其一,AlphaFold 得出的是预测性结果,因此和实际存在偏差。在传统结构生物学领域,一般使用实验方法来做蛋白质结构,而 AlphaFold 得出的结构是预测性质的,因此会和实际结构存在一定偏差,需要用人工实验方法,来对结果进行验证。

其二,AlphaFold 帮助设计药物的效果,依然有待观察。它的确能帮助研发药物,但药物带来的实际作用,也要继续观察。此次 AlphaFold 论文的作者,提出了一些假说来阐述蛋白质结构带来的影响。但是,这些影响力是否属实,也需要科学家亲自动手验证。

其三,不能进行大型复合物的结构预测。就像 AlphaGo 没有给围棋带来终极答案一样,AlphaFold 也没给蛋白质理解带来终极答案。关于蛋白质本身的工作情况,仍然需要人类进一步探索。对于目前做结构生物学而言,还是以生化手段为主,因此要继续挖掘除了蛋白质结构以外的深层次工作机理。

AlphaFold 并不会让结构生物学家“丢掉饭碗”

对于人工智能和机器学习来说,这极大地增强了科学家对于利用机器学习克服更复杂科学问题的信心。此外,有了这个科研成果,还可以增加科学家对于超大分子结构和功能的认识。现在,基本上所有的 2700 个氨基酸以下的蛋白质的结构都可以进行预测,下一步对于超大分子复合物结构和功能也能更快地找到答案。

虽然目前需要做人工验证,但如果没有 AlphaFold 那就一点信息也没有。现在来看,科学家可以对 AlphaFold 的预测结果精准度进行分辨,即判断哪些是精确的、哪些是不精确的。至于那些无法被预测的蛋白质结构,可能是因为相关蛋白质本身并不具备结构,亦或者是它本身比较灵活因此难以被预测。

新南威尔士大学计算机科学与工程学院副教授姚丽娜总结称,AlphaFold 具有很好的泛化性。不仅仅是在人类蛋白质组上,此次 DeepMind 发布的结果中也包括其余 20 种不同有机体的蛋白质预测结果,比如大肠埃希氏杆菌、以及酵母等。

图 | 包含两个低置信区域的全链输出(来源:DeepMind)

总之,AlphaFold 的可信结果,能提供非常好的起始模板,我们可以放心地使用,有了这些蛋白质结构,就能据此去建立结构和功能之间的联系。而对于不可信的结果,可通过改进算法去优化。

但无论 AlphaFold 发展到何种地步,都不会让结构生物学从业者“丢掉饭碗”,因为人工为主、AI 为辅,才会推进生物学研究的进展。

朴茨茅斯大学酶创新中心主任、结构生物学教授约翰麦基汉(John McGeehan)表示:“AlphaFold 能够在一个周末就能完成从前需要数月甚至数年才完成的事情。我们相信人工智能有可能彻底改变 21 世纪的科学工作方式,我们热切期待 AlphaFold 可能帮助科学界解锁下一步的发现。”

相比几年前引起轰动的 AlphaGo,AlphaFold 让深度学习的威力切切实实地展现,从而掀起了一轮新的 AI 革命,促成了近几年 AI 的“又一个春天”和爆炸性的发展。

同时,伴随着代码的开源,所有这些都会极大促进深度学习在生物学各个细分领域的应用进展,比如基因研究、流行病学研究和进化研究等。从而真正实现 AI 的普遍应用,让 AI for Social Good。

-End-

参考:

https://github.com/deepmind/alphafold