未发布文章,仅支持15分钟预览

重磅!生物学领域主要谜团之一,蛋白质折叠问题正在被AI破解

{{sourceReset(detailData.source)}}

{{dynamicData.sub_info.subject_name}} 紫牛新闻

{{item.reporter_name}}

{{item.tag}}

+ 关注

原标题:重磅!生物学领域主要谜团之一,蛋白质折叠问题正在被AI破解

来源:人民日报、中国电子报、光明网

【原标题】弥补传统观测方法不足 加速生命科学领域研究

人工智能预测蛋白质结构(新知)

近日,人工智能企业上海天壤智能科技有限公司宣布,其自主研发的深度学习蛋白质折叠预测平台在国际蛋白质结构预测竞赛蛋白质测试集的评估中获得优异成绩,位居全球同类型团队前列。在400个氨基酸的蛋白链预测时,该预测平台仅耗时16秒。

科学家说,蛋白质是细胞中的主要功能分子,在细胞中发挥多种多样的功能。比如,作为酶发挥催化作用,参与生物体内新陈代谢的调剂作用,运输代谢物质,用于细胞骨架的形成,以及参与免疫、细胞分化、细胞凋亡等过程。作为构成生命的基本元件,破解蛋白质的功能是揭开各种生命现象的金钥匙。

据天壤创始人薛贵荣博士介绍,为了行使特定功能,蛋白质必须折叠成特定的结构,只有少数蛋白质处于天然无折叠状态但仍具有功能。蛋白质的三维结构也直接决定蛋白质的功能,一旦三维结构被破坏,蛋白质功能随之丧失。许多疾病都是由体内重要的蛋白质结构异常引起。因此,研究蛋白质结构有助于了解蛋白质的功能和作用,从而带来医疗保健、食品可持续性、创新生物技术等方面的改善,推进生命科学、药物研发、合成生物学方面的发展。

在生命科学领域,观测和解析蛋白质结构一直是个令人着迷的话题,吸引着众多科学家攻坚,但也面临着难度大、成本高、进展有限的局面。传统观测蛋白质结构的方法主要有三种:核磁共振、X射线、冷冻电镜。这些方法依赖大量试错以及昂贵的设备,每种结构的研究往往长达数年。现有的实验手段也还不足以揭示一些重要的蛋白结构,需要借助更多生物信息技术、计算生物学手段去探索。但使用普通的计算机软件来计算蛋白质结构,运算量相当惊人,连超级计算机也难以承受。为此,蛋白质结构预测成为结构生物学的重要分支,研究人员通过开发相关的人工智能算法,根据氨基酸序列来预测蛋白质的空间结构。

“从人工智能战胜围棋世界冠军,到城市交通调度,人工智能在解决复杂系统问题中显示出了惊人的智能决策能力,而蛋白质结构预测虽然是生物学课题,同时也属于复杂场景的问题,可以体现人工智能在基础科学研究中的巨大潜能,我们不愿意错过这道风景。”薛贵荣说,像这种全方位的创新项目非常珍贵,它覆盖了交叉学科的创新、行业的创新、基础科学的创新、人工智能算法和工程能力的创新。

近期的这些进展表明,将人工智能应用于蛋白质结构领域,通过预测的方式破解传统观测方法所不能解析的一些结构,且可信度比较高,十分接近事实。这种人工智能的结构预测算法,有望成为科学家的利器,加速生命科学领域的研究发展。

目前,单个蛋白质折叠预测只是一个起点,蛋白质通常以复合物的形式成对或成组发挥功能,以承担生命所需的种种功能,而许多蛋白质复合物的结构至今仍然成谜。薛贵荣认为,未来还要进一步提高人工智能算法的普适性和准确度,在揭示多个蛋白质之间的相互作用方面作出贡献,帮助人类寻找到精准的疾病治疗新方法。

标题:AI加速破解生命密码

来源:中国电子报

时间:2021年12月14日

每一个产业风口的开启,总有一些标志性事件。就像2016年Google DeepMind的AlphaGo与李世石下棋,2020年年底Google DeepMind的AlphaFold2参加2020年第14届国际蛋白质结构预测竞赛(CASP14)。前者昭示了AI第三次浪潮的来临,而后者有可能开启生命科技数字化的黄金十年。

今年7月15日,谷歌DeepMind团队与华盛顿大学贝克团队(David Baker)分别开源了AlphaFold2与RoseTTAFold。当这两种创造了前所未有准确度的预测蛋白质结构算法开源后,预示着用AI破解生命密码的时代拉开大幕。而在这场用AI破解蛋白质结构的全球竞赛中,中国阵营给出了不错的成绩单。日前,来自中国的人工智能企业天壤宣布,其自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14蛋白质测试集的评估中排名全球第二,仅次于AlphaFold2。在对400个氨基酸的蛋白链预测时,TRFold仅耗时16秒。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩,标志着我国在计算生物学领域的表现已经处于世界第一梯队。

与此同时,深势科技也宣布推出蛋白质结构预测工具Uni-Fold。它能够复现AlphaFold2的全规模训练,并开源训练代码与推理代码。相应解决方案已集成至深势科技自主研发的药物设计平台Hermite,供用户测试使用。

用AI预测蛋白质结构,对于加速生命科技的数字化至关重要,在全球生物数字化的竞赛中,中国阵营正采用新思路、新路径,加速推进。

生命数字化开启新风口 蛋白质结构预测是关键

拼多多创始人黄峥和字节跳动创始人张一鸣宣布卸任CEO之时,未来规划中有一个共同选项,就是希望投入更多的精力在生命科技的研究与探索上。事实上,其他如百度创始人李彦宏、阿里创始人马云等,都将个人的下一个兴趣目标定在了生命科技上。生物世界的数字化,正在成为新风口。

新晋中国工程院外籍院士张亚勤几天前表示,过去30年,信息产业推动了内容的数字化、企业的数字化,而未来的重点是物理世界的数字化和生物世界的数字化,下一个10年是AI与生物制药融合的大好时机。

“一方面我们的身体从大脑、器官到细胞、蛋白质、基因、分子都在数字化,另一方面人工智能算法、算力和系统的快速发展让大量数据有了使用的场所。”张亚勤说,以前新药研发需要十几年的周期,10亿美元的投入,AI正在改变这种状况。

每一个产业的发展都有一些关键基石,而生物数字化、生命数字化的一个关键是利用数字技术破解蛋白质结构之谜。

蛋白质为什么关键,因为它是生命构成的基本要素,用北京航空航天大学大数据精准医疗高精尖创新中心特聘研究员叶盛的话来说,人体细胞乃至地球上任何一种生命的细胞,都是由蛋白质构成的。可以说,几乎所有的生物学问题都会牵涉蛋白质,而几乎所有的蛋白质功能问题最终都要通过结构研究去回答。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。

长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。蛋白质结构研究为什么难?是因为蛋白质的尺寸为纳米级,比人类肉眼的可见光波还要小,超越了光学显微镜的观察极限,因此要想研究蛋白质的结构,必须采用某种间接的方式。

而且解蛋白质结构之题,远远难于基因。“蛋白质结构测定与基因组测序最大的区别在于,基因组序列是一维的、线性的;而蛋白质结构是三维的。因此,基因组测序无论测什么物种的基因组,本质上都是在做同一件事,可以通过机器进行自动化、规模化的操作,而蛋白质结构测定则是不同的课题,科学家始终没有找到批量处理的方法。”叶盛说。

在过去几十年中,结构生物学家为探测蛋白质结构研究出三大实验手段——X射线晶体学、核磁共振和冷冻电镜,但实验方法成本高、周期长。目前人类有数十亿个已知蛋白质序列,还原出结构的却只有十几万个。生物学发展因此颇受掣肘。

人工智能的发展为解决这一问题带来了一些新的可能。在2020年的国际蛋白质结构预测顶级竞赛CASP14上,Google DeepMind推出AlphaFold2(简称AF2)预测的大部分单体蛋白质结构准确度与实验足够接近,远超此前所有方法。这一结果也标志着蛋白质单体结构的问题在一定意义上得到了解决。中国结构生物学家施一公对此的评价为“这是AI对科学领域的最大一次贡献”。结构生物学家Petr Leiman表示:“我用价值1000万美元的电镜努力了好几年,AF2竟然一下就算出来了。”

除了AlphaFold2,另外一个被高度关注的AI算法是华盛顿大学医学院蛋白质设计研究所的贝克团队,有人说因为DeepMind的成功触动贝克团队重视AI,于是他们联合很多大学与机构研发了一款基于深度学习的蛋白质预测新工具RoseTTAFold,并在预测蛋白质结构上取得了媲美AF2的超高准确率,而且速度更快、所需要的计算机处理能力也较低。

总之,AlphaFold2与RoseTTAFold是AI预测蛋白质结构的两个“明星”,破解了出现50年之久的蛋白质分子折叠问题,打开了人类预测蛋白质结构的另一扇窗。今年7月,DeepMind团队与贝克团队分别开源了他们各自的算法,这给全球研究机构进行蛋白质结构预测带来福音,大大降低了研究蛋白质结构的门槛,将帮助科研人员弄清引发某些疾病的机制,并为研发药物、农作物增产,以及可降解塑料的“超级酶”等铺平道路。

蛋白质结构预测的中国智慧

AlphaFold2与RoseTTAFold首次展现了AI在蛋白质结构预测领域的巨大想象力,意识到它可能带来划时代的意义,中国的AI公司、研究团队同样加入了这场解码生命难题之战。

或许有人会问,AF2与RoseTTAFold都已经开源,中国有必要再自主研发蛋白质结构预测的算法吗?答案是当然必须。因为开源带来的也并不全是便利,只有占据自主研发的高地才能避免在未来科技竞争中“卡脖子”。虽然DeepMind开源了AF2模型的推理代码,但其训练代码并未公布,且模型不可商用。

无法深入过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。天壤创始人薛贵荣认为:“AF2的成功是蛋白质结构预测方向的重大突破,但是围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验,或者没有具备能够训练出AF2结果的能力是无法把该技术推进解决更深层次问题的。”

在这一点上,中科院院士、北京大学教授、深势科技首席科学顾问鄂维南表达了与薛贵荣一致的观点:“尽管DeepMind开源了推理代码,但模型的训练技术才是核心竞争力。”

应该说,利用AI解密蛋白质结构之谜的大门才刚刚开启,在这个新赛道,中国必须参与其中。基于此,人工智能创业公司天壤在两年前组建了自己的X-Lab团队,经过艰苦努力和多次迭代,研发出具有自主知识产权的蛋白质折叠预测平台TRFold。在基于CASP14蛋白质测试集的评估中排名全球第二,仅次于AlphaFold2,而且在400个氨基酸的蛋白链预测中,TRFold仅耗时16秒。这意味着,中国在该领域进入了世界第一阵营。

相对于AF2,天壤的TRFold在许多维度实现了创新和优化。在内存优化方面,TRFold模型参数量接近5000万,为AF2的一半。在训练数据方面,TRFold的算法模型所用数据量比AF2更少。在模型表达方面,AF2采用的是端到端模型,而TRFold采用的是分段式结构。这些创新和优化,意味着TRFold所用的算力资源更少、产生结果的速度更快,在大规模蛋白与蛋白的相互关系分析上,更具有优势,而且能够加速应用在不同场景中。

与此同时,包括中科院、腾讯、复旦大学等AI企业、研究机构也加入了这场竞赛。其中,深势科技推出的蛋白质结构预测工具Uni-Fold,克服了AF2未开源训练代码、硬件支持单一、模型不可商用等局限性,复现AF2的全规模训练,并开源训练代码与推理代码,为更多人参与推动该领域进一步发展提供了基础。

期待更多资源、更大范围的协同

利用AI破解蛋白质结构之谜,将改变人类对生命的认知,有可能重塑生物应用的逻辑,并将开启一个广阔和巨大的市场。英国《自然》杂志有一组数据:新药的研发成本大约是26亿美元,耗时约10年,成功率不到1/10。而AI的加入,有望大幅降低成本,缩短研发周期。目前因为AI的应用,部分新药研发减少了35%的成本,研发周期从5~10年缩短为1~3年。

AI破解蛋白质结构展示了美好前景,但仍然处于发展早期,还有许多难题期待AI加速破解。此前,叶盛曾谈及了蛋白质结构的设计,这远比蛋白质结构的预测更难。

目前AF2只是解决了单个蛋白质结构的预测问题,之后两个蛋白质的相互作用以及一大堆蛋白质的相互作用,再叠加环境变量,是更大的挑战。薛贵荣表示,利用AI加速破解生命的密码,需要更多的产业资源协同。“蛋白质折叠预测是全方位的创新项目,需要行业、机构更多方参与协同,才能把这个体系做起来。”薛贵荣表示。

薛贵荣在谈及TRFold的研发与未来发展时,曾提及了算力挑战。与Google DeepMind相比,天壤没有如此巨大的算力支持,所以天壤选择了其他路径。事实上,在中国有许多云计算巨头,各地也建立了不少的超算中心、智算中心。在抗击疫情时,许多计算资源机构都拿出了大量的计算资源支持抗疫,笔者认为这些算力资源也应该向AI破解生物难题做更多的倾斜。另外薛贵荣还谈到了数据资源的共享与制药机构的协作问题。

数据资源也是巨大的挑战之一。国际金融论坛(IFF)副理事长、香港特别行政区财政司原司长梁锦松在国际金融论坛第18届全球年会上表示,近年来,包括在新药研究、医疗服务等领域,生命科技产业在全球发展加速。香港有很多世界级的优秀学者和研究员,而且大部分与生物科技有关,但是缺乏患者资源,要做临床试验比较困难;而广州和深圳有很多大学,特别是在AI和机器人方面处于领先地位,加之拥有庞大的患者资源和医疗市场,这些对于发展生命科技能产生聚合效应。

鄂维南认为,生命科学是AI的下一个主战场,算力、算法、数据的协同发展正在缩短理论研究与解决实际问题之间的距离。AI在科研领域与应用场景深入的过程中,需要各领域、多学科的交叉与合作。而开源是一个很重要的协作模式,能够更大范围地协同各个维度的行业资源。

张亚勤表示,AI和生命科学有很多可合作的地方,比如新冠疫苗去年年底进入临床试验,今年大规模使用,这可能是人类历史上最快的一次计算机科学包括人工智能加速疫苗开发的例子。另外迁移学习用少量原始数据加上动物模型快速发现了对罕见病的药物,几何深度学习找出了广谱、稳定的新冠抗体,对变种株也有效。

李彦宏今年投资了一家生物计算公司——百图生科。他认为,当前生物计算的发展十分迅速,与20年前的互联网有诸多相似之处。基因组学研究带来的人体数据、新药研发过程当中所积累的知识和新生的各类机器学习算法三大关键指标在快速增长,会带来巨大的突破和进步。他认为:“生物计算产业的发展,需要生态和产业链的协同,一家乃至100家的企业可能都远远不够,我们希望和科学家、企业家一起构建开放的生物计算创新生态,去探索广袤浩瀚的生命科学无人区。”

计算与生命科学的融合,是没有尽头的星辰大海,希望中国企业、研究机构能够在其中贡献更多的中国智慧。(记者 李佳师)

【相关报道】

标题:当AI遇到生物应用,蛋白质折叠问题正在被破解

来源:光明网

时间:2021年12月20日

蛋白质是生命的基石,几乎支持着人体所有功能。同时,蛋白质又是大型复杂分子,由多种氨基酸以不同长度排列迅速折叠组成,蛋白质的作用很大程度上取决于其独特的三维结构。准确预测蛋白质三维结构对生命科学和医学无疑是一大福音,这意味着加快人们对细胞组成部分的理解。

事实上,“蛋白质折叠问题”是生物学中的一大挑战。半个世纪以来,科学家一直在寻找解决蛋白质折叠问题的方法。而现在,这一难题在人工智能技术及深度学习算法协助下逐渐得到突破。

人工智能应用于蛋白质结构的最新进展,能在几天、甚至分钟级预测出具有高置信度的蛋白质结构,这在以前用核磁共振、X射线、冷冻电镜等传统方式测定,要花费数月到数年的时间。

近日,国内人工智能企业天壤宣布,其自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)蛋白质测试集的评估中获得82.7/100的成绩,位列全球第二。

“我们通过两年半的时间掌握了蛋白质折叠核心技术,并以此参与到国际最前沿的生物医学领域的应用中,希望能够开辟出一条AI生物学的应用之路。”天壤公司创始人薛贵荣介绍说。

据了解,天壤是研究通用人工智能的公司,专注于自研核心技术,先后在AI围棋、城市级交通调度等领域落地。“基于天壤自主研发的迭代升级神经网络技术,可以大幅降低超大规模网络模型的算力消耗,能够以最小的计算资源,通过渐进式的迭代,获得最佳算法模型。”薛贵荣说。

虽然此前DeepMind公司开源了AlphaFold2的预测模型,然而对于像天壤这样一直投入在该领域的团队而言,开源带来便利的同时,也带来了一定挑战。天壤XLab团队负责人苗洪江认为,假如没有深入探索过程,就无法对不同的方法优势进行量化,也不能将最有价值的创新进行更大范围的应用。需要从头搭建一套自研算法,才能展开后续的工作。 团队通过持续的努力,终于交上了这份优秀的答卷。

蛋白质折叠预测是全方位的创新项目,它覆盖了交叉学科的创新、行业的创新、基础科学的创新以及AI算法和工程能力的创新。

天壤Xlab团队表示,后续将重点挖掘蛋白质与蛋白质相互作用的精准链路,希望对人类疾病的治疗、药物的研制等方向做出贡献。

AI应用于生物科技领域的创新革命正在不断继续。针对未来行业发展,薛贵荣表示,算力和数据也是支撑行业发展的关键要素。未来几年内,将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。(IT分析师 陵锋)

作者:记者 余建斌

本文选自“人民日报”,2021年12月27日

新华社客户端新知平台欢迎优质深阅读内容创作者参与平台内容建设

编辑部联系方式:010-88053802

[责任编辑:杨凡、崔中连]

想爆料?请登录《阳光连线》( http://minsheng.iqilu.com/)、拨打新闻热线0531-66661234或96678,或登录齐鲁网官方微博(@齐鲁网)提供新闻线索。齐鲁网广告热线0531-81695052,诚邀合作伙伴。

{{dynamicData.sub_info ? dynamicData.sub_info.subject_name : dynamicData.event_info.title_short}} {{dynamicData.sub_info ? dynamicData.sub_info.subject_desc : dynamicData.event_info.brief}}
{{dynamicData.sub_info ? '+ 关注' : '+ 追踪'}}
文章未发布,请后台刷新重置预览