最新新闻
军建医院疤痕科权威专家开展临床学术研究 第三季度小米与三星在印度市场并列第一 链家COO王拥群:打造中国房产服务业的国民品牌 链家全面迭代安心服务承诺 为消费者保驾护航 阿里上市|股票牛0手续费认购,还送10股阿里港股、888元现金 恒久科技1.4亿元入股闽保股份 加速布局“区块链+保密软硬件” 博雅互动:博雅斗地主个人技巧赢取高分攻略 “洗脑式”广告真的有错吗 第27届世界植发大会新生与全球专家共商植发行业健康发展 链家荣获“2019年度最佳服务品质品牌奖” 佐嘉粒米脂小米携手2019一乡一品国际商品博览会致力打造“中国小米品牌” 链家进一步升级人才战略 2021年底将经纪人本科率提升至51% 时尚新力量,传奇今生唇膏掀起时尚风暴 致力于打造全一流财富管理平台——中海在线 恒久科技收购闽保股份,将受益当地政府推进政务上链 潘石屹SOHO“大清仓”,投资风向标剑指希腊移民 工拍网一站式元器件工控品在线“撮合交易”平台助力中国制造 中佰康磁疗床垫在你睡眠中保驾护航 CoinPay数字商品交易所平台秉承开放、自由、分享的互联网精神,稳健发展 松下进口冰箱新品F654无锡苏宁首发 大容量紧凑型冰箱赋能新鲜生活 功夫熊猫:解锁能让你赚钱的游戏APP 链家宣布2020年起全面招募本科学历经纪人 证券配资平台保利配资证券配资公司:如何让股票配资有更好的收益 英国惊现世界首例机械“改造人”!继NAD+前体NMN衰老抑制剂,富豪续命再出新招 定制塑料袋为什么选择塑心,塑心塑料袋的优势在哪 配资开户公司蜂窝配资配资开户平台:配资交易如何进行资金管理 各类品牌推出防脱发产品 深圳新生植发提醒您“头等”消费需理性 梵蜜琳x优酷《演技派》开播,全原创模式打造演技类综艺的新局面 中国十大母婴投资品牌 谁才是杰出特许品牌奖获得者! 股票配资公司配资皇建立配资平台使炒股技术高的炒股者充分发挥才能
您的位置:首页 >资讯 > 科技 >

新的深度学习方法从氨基酸序列预测蛋白质结构

2019-04-19 10:08:25   来源:

生命所必需的几乎所有基本生物过程都是由蛋白质完成的。它们创造并保持细胞和组织的形状;构成催化维持生命的化学反应的酶;充当分子工厂,运输工具和电机;用作蜂窝通信的信号和接收器;以及更多。

蛋白质由长链氨基酸组成,通过将自身折叠成精确的3D结构来控制它们与其他分子的相互作用,从而完成这些无数的任务。由于蛋白质的形状决定了它的功能及其在疾病中的功能障碍程度,因此阐明蛋白质结构的努力是所有分子生物学的核心 - 特别是治疗科学以及拯救生命和改变生命的药物的发展。

近年来,计算方法在基于其氨基酸序列的知识预测蛋白质如何折叠方面取得了重大进展。如果完全实现,这些方法有可能改变生物医学研究的几乎所有方面。然而,目前的方法在可以确定的蛋白质的规模和范围方面受到限制。

现在,哈佛医学院的一位科学家使用了一种称为深度学习的人工智能来预测基于其氨基酸序列的任何蛋白质的三维结构。

系统生物学家Mohammed AlQuraishi于4月17日在Cell Systems上在线报道,详细介绍了一种计算确定蛋白质结构的新方法 - 实现与当前最先进方法相当的精确度,但速度提高了一百万倍。

“在过去的半个世纪里,蛋白质折叠一直是生物化学家最重要的问题之一,这种方法代表了应对这一挑战的一种全新方式,”AlQuraishi说,他是HMS Blavatnik研究所系统生物学讲师,同时也是系统药理学实验室。“我们现在有一个全新的远景来探索蛋白质折叠,我想我们刚刚开始划伤表面。”

容易说明

虽然非常成功,但使用物理工具识别蛋白质结构的过程既昂贵又耗时,即使使用低温电子显微镜等现代技术也是如此。因此,绝大多数蛋白质结构 - 以及引起疾病的突变对这些结构的影响 - 仍然在很大程度上是未知的。

计算蛋白质折叠方式的计算方法有可能显着降低确定结构所需的成本和时间。但是,经过近四十年的紧张努力,这个问题很难解决。

蛋白质由20种不同氨基酸的文库构建。这些行为像字母表中的字母,组合成单词,句子和段落,以产生天文数字的可能文本。然而,与字母不同,氨基酸是位于3D空间中的物理对象。通常,蛋白质的部分将在物理上接近,但在序列方面间隔很远,因为其氨基酸链形成环,螺旋,片和扭曲。

“这个问题引人注目的是它很容易陈述:采取一个序列并找出形状,”AlQuraishi说。“一种蛋白质起源于一种非结构化的细胞系,必须具有三维形状,一根细绳可以折叠成可能形状的形状是巨大的。许多蛋白质长达数千个氨基酸,并且复杂性很快超过了人类直觉甚至是最强大的计算机。“

很难解决

为了应对这一挑战,科学家利用氨基酸根据物理定律相互作用的事实,寻找能量有利的状态,如滚球下坡到山谷底部。

最先进的算法通过在超级计算机上运行来计算蛋白质结构 - 或者在Rosetta @ Home和Folding @ Home等项目中利用众包计算能力来模拟氨基酸相互作用的复杂物理通过蛮力。为了减少大量的计算需求,这些项目依赖于将新序列映射到预定义的模板上,这些模板是先前通过实验确定的蛋白质结构。

其他项目,如谷歌的AlphaFold,通过利用人工智能的进步来预测蛋白质的结构,最近产生了巨大的兴奋。为此,这些方法解析了大量的基因组数据,其中包含蛋白质序列的蓝图。他们寻找可能一起进化的许多物种的序列,使用这样的序列作为与指导结构组件紧密物理接近的指示物。

然而,这些AI方法不能仅基于蛋白质的氨基酸序列预测结构。因此,它们对于没有先验知识的蛋白质,进化独特蛋白质或人类设计的新蛋白质具有有限的功效。

深入培训

为了开发新方法,AlQuraishi应用了所谓的端到端可微分深度学习。人工智能的这一分支极大地降低了解决图像和语音识别等问题所需的计算能力和时间,从而实现了Apple的Siri和Google Translate等应用程序。

本质上,可微分学习涉及单一的,巨大的数学函数 - 高中微积分方程的更复杂版本 - 被安排为神经网络,网络的每个组成部分向前和向后馈送信息。

该功能可以在难以想象的复杂程度上反复调整和调整自身,以便“精确地”学习蛋白质序列在数学上与其结构的关系。

AlQuraishi开发了一种深度学习模型,称为复发几何网络,侧重于蛋白质折叠的关键特征。但在它可以进行新的预测之前,必须使用先前确定的序列和结构进行训练。

对于每种氨基酸,该模型预测将氨基酸与其邻居连接的化学键的最可能角度。它还预测围绕这些键的旋转角度,这会影响蛋白质的任何局部区域与整个结构的几何关系。

这是重复进行的,每次计算都通过每个其他氨基酸的相对位置进行通知和改进。一旦整个结构完成,模型通过将其与蛋白质的“基础事实”结构进行比较来检查其预测的准确性。

对于数千种已知蛋白质,重复整个过程,模型学习并在每次迭代时提高其准确性。

新的远景

一旦他的模型被训练,AlQuraishi测试了它的预测能力。他将其性能与最近几年蛋白质结构预测的关键评估中的其他方法进行了比较 - 这是一项年度实验,测试计算方法是否能够使用已经确定但未公开发布的蛋白质结构进行预测。

他发现新模型在预测蛋白质结构方面优于所有其他方法,其中没有预先存在的模板,包括使用共同进化数据的方法。当预先存在的模板可用于进行预测时,它也优于除最佳方法之外的所有方法。

虽然这些准确度的提高相对较小,但AlQuraishi指出,这些测试最高端的任何改进都难以实现。并且因为这种方法代表了一种全新的蛋白质折叠方法,它可以补充现有的计算和物理方法,以确定比以前更广泛的结构。

引人注目的是,新模型的预测速度比现有的计算方法快6到7个数量级。训练模型可能需要数月,但一旦训练,它可以在几毫秒内进行预测,与使用其他方法所花费的时间相比。这种显着的改进部分是由于它所基于的单一数学函数,只需要几千行计算机代码而不是数百万。

AlQuraishi说,这种模型预测的快速速度使得以前缓慢或难以实现的新应用成为可能,例如预测蛋白质在与其他分子相互作用时如何改变其形状。

“深度学习方法,不仅仅是我的方法,将继续增强其预测能力和普及性,因为它们代表了一种简单,简单的范例,可以比现有的复杂模型更容易地整合新思想,”他补充道。

AlQuraishi说,新模型还没有立即用于药物发现或设计,因为它的准确度目前大约在6埃左右 - 距离解决完整原子结构所需的1到2埃还有一段距离。一种蛋白质。但他说,有很多机会可以优化这种方法,包括进一步整合化学和物理学的规则。

“准确有效地预测蛋白质折叠一直是该领域的圣杯,我希望并期望这种方法与已开发的所有其他卓越方法相结合,能够在不久的将来实现这一目标, “AlQuraishi说。“我们很快就可以解决这个问题,而且我认为五年前没有人会这么说。这是非常令人兴奋的,同时也是令人震惊的。”

为了帮助其他人参与方法开发,AlQuraishi通过GitHub软件共享平台免费提供他的软件和结果。

“AlQuraishi工作的一个显着特点是,嵌入哈佛医学院和波士顿生物医学界丰富的研究生态系统的单一研究人员可以与谷歌等公司在计算机科学最热门的领域竞争,”彼得说。 Sorger,HMS Otto Krayer HMS Blavatnik研究所系统药理学教授,HMS系统药理学实验室主任和AlQuraishi的学术导师。

“低估像AlQuraishi这样的优秀研究员在公共领域使用开源软件的破坏性影响是不明智的,”Sorger说。

该研究得到了国立普通医学科学研究所和美国国立卫生研究院国家癌症研究所(P50GM107618和U54CA225088)的支持。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。