aPRBind:结合序列和基于卷积神经网络学习的基于I

编程入门 行业动态 更新时间:2024-10-09 03:23:13

aPRBind:结合序列和基于<a href=https://www.elefans.com/category/jswz/34/1765938.html style=卷积神经网络学习的基于I"/>

aPRBind:结合序列和基于卷积神经网络学习的基于I

目录

    • Paper_Info
    • 预备知识:
    • Abstract
    • Motivation:
    • Results:
    • 1 Introduction
    • 2 Methods
      • 2.1 Data
      • 2.2 基于 I-TASSER的结构构件
      • 2.3 Features extraction
      • 2.4 Convolutional neural networks
      • 2.5 aPRBind算法的体系结构
      • 2.6 Performance evaluation measures
    • 3 Results
      • 3.1采用I-TASTER搭建的结构
      • 3.2 Analyses of feature contributions
      • 3.3 aPRBind在独立测试集上的性能及其与现有预测服务器的比较
      • 3.4 I-tasser模型精度对结合位点预测的影响
      • 3.5 Case study
    • 4 Conclusions

Paper_Info

作者:Yang Liu, Weikang Gong, Yanpeng Zhao, Xueqing Deng, Shan Zhang, and Chunhua Li
单位:北京工业大学环境与生命科学学院
发布期刊:Bioinformatics
发布时间: 2020年8月21日
paper
code
dataset RB198、RB111
补充材料

预备知识:

aPRBind是一种预测蛋白质上RNA结合残基的方法。

I-TASSER(Iterative Threading ASSEmbly Refinement):I-TASSER(迭代线程优化)是一种用于蛋白质结构预测和基于结构的功能注释的分层方法。它首先通过多线程方法LOMETS从PDB识别结构模板 ,并通过基于迭代模板的片段装配仿真构建全长原子模型。然后,通过蛋白质功能数据库BioLiP重新对3D模型进行穿线,从而得出目标的功能见解 。I-TASSER(作为“ Zhang-Server”)在最近的社区范围内的 CASP7, CASP8, CASP9, CASP10, CASP11, CASP12, CASP13和 CASP14 实验。它在CASP9中也被认为是功能预测最好的 。
输入为:FASTA格式序列[10,1500]个残基内 。
输出:蛋白质结构和功能预测。
I-TASSER网站

AA指数获取理化性质特征

步骤:
包括三个步骤:
1.I-TASSER模型构建
/,to construct the protein structure and the first model (named as 2l5d_a.pdb) out of the five predicted ones is selected. Parameters are set to default values.
2.The second step: Features extraction
,特征提取和预测性能。

Abstract

Motivation:

蛋白质-RNA相互作用在各种生物过程中起着至关重要的作用。蛋白质中RNA结合残基的准确预测一直是计算生物学领域中最具挑战性和最具吸引力的问题之一。现有的方法仍然具有相对较低的精度,特别是对于基于序列的ab-initio方法。

Results:

在这项工作中,我们提出了一种基于卷积神经网络(CNN)的ab-initio 方法,用于RNA结合残基的预测。APRBind用从I-tasser预测结构中提取的序列特征和结构特征(特别是包括我们开发的残基动力学信息和残基核苷酸倾向)进行训练。特征贡献率分析表明,序列特征在结合位点预测中最重要,其次是动力学信息,序列特征和结构特征是互补的。在基准数据集上与其他同类方法的性能比较表明,aPRBind方法的性能优于一些先进的ab-initio方法。此外,由于结构特征对精化的三维结构不是很敏感,aPRBind对结构模型的精度只有很小的依赖关系,这使得aPRBind可以应用于对建模(对于TM-Score≥0.5的建模结构)或未绑定结构的RNBind位点预测。

Availability: 源代码可在.上获得

1 Introduction

蛋白质-RNA相互作用在广泛的生物学过程中发挥着关键作用,如基因表达和调控、蛋白质合成和病毒组装(Keene,2007)。蛋白质-RNA识别的异常可能导致许多疾病(LuKong等人,2008年)。因此,蛋白质上RNA结合残基的可靠识别是一个重要而又具有挑战性的问题,它对于理解蛋白质-RNA相互作用的识别机制至关重要,也有助于复杂结构预测和药物设计。实验方法非常昂贵和耗时。因此,开发预测蛋白质-RNA结合位点的计算方法的需求越来越大。在过去的十年中,已经建立了许多计算方法。根据它们使用的特征,这些方法可以分为两类:基于序列的方法(Carson等人,2010;El-Manzalawy等人,2016;Kumar等人,2008;Murakami等人,2010;Terribilini等人,2007;Walia等人,2014)和基于结构的方法(Chen和Lim,2008;Kim等人,2006;Maetschke和袁,2009年;Perez-Cano和Fernandez-Recio,2010年;唐等人,2017年;Towfi等人,2010年)。

对于基于序列的方法,目标蛋白的常用特征包括位置特定评分矩阵(PSSM)、氨基酸理化性质、预测的溶剂可及性等。PSSM是序列进化特征的一种常见代表,由于界面残基经历了相对较高的进化压力,比其他表面残基发生的突变更少(更保守),因此PSSM已被广泛应用于大多数预测因子中。除了标准的PSSM外,还开发了两种主要的改进的PSSM图谱,并将其用于RNA结合残基预测,这两种图谱分别通过滑动窗口(El-Manzalawy等人,2016;Li等人,2014;Walia等人,2014)和平滑处理后的滑动窗口(称为平滑PSSM)(Cheng等人,2008年)进行缩放。与平滑处理和滑动窗口均基于目标残差序列邻域的平滑PSSM不同,本文提出的SNB-PSSM(Space Neighbor Based Position-Specific Score Matrix)采用基于空间邻域的平滑处理和结构窗方案对进化信息进行编码。SNB-PSSM比平滑的PSSM对RNA结合残基的预测更好,这在一定程度上可以用我们检测到的保守的界面残基经常聚集在一起来解释(Yang等人,2020年)。对于基于结构的方法,除了序列特征外,常用的结构派生特征包括结构特征和拓扑特征等。前者主要包括二级结构类型、几何裂隙(Chen和Lim,2008)、复杂网络性质(Maetschke和袁,2009)、Voronoi接触和结构邻居(唐等,2017),后者主要包括溶剂可及性(Maetschke和袁,2009)和静电势(Chen和Lim,2008)。

除了上述特征外,还需要探索其他一些特征来推进RNA结合位点的预测。众所周知,蛋白质RNA相互作用具有序列和结构识别特异性(Chen等人,2004年;Jeong等人,2003年;Jones等人,2001年;Perez-Cano和Fernandez-Recio,2010年)。基于这一事实,我们提取了60×8个残基-核苷酸成对倾向势,其中考虑了先前工作中的二级结构信息,这在区分近天然复杂结构方面表现出了良好的性能(Li等人,2012年)。结合物理能项,这一势可以捕捉到评分列表前5名中至少有一种对接模式,该模式在91.4%的蛋白质-RNA相互作用的界面上天然界面残基和核苷酸不低于50%(Zhang等人,2017年),显示出良好的界面预测能力。因此,在这里,我们尝试将其作为一个特征应用于RNA结合残基的预测。此外,除了序列和结构特征外,蛋白质动力学特性在蛋白质-蛋白质/配体特异性识别和相互作用中发挥着重要作用,这些特性已经被用来预测结合关键残基、结合热点(Melo等人,2016),甚至变构位点(Taguchi和Kitao,2016)。我们还利用残基动力学特性成功地确定了snRNA与人U1A蛋白相互作用的关键结合残基(han等人,2019年)。因此,残基动力学属性也是我们想要应用于RNA结合位点预测的。

近年来,随着蛋白质结构预测方法的发展,在没有同源模板的情况下具有很高的预测精度,这使得我们能够构建基于预测结构的结合位点预测方法。张等人开发的I-Tasser结构预测器是一种基于线程的方法,即使对于新的折叠目标也表现得相当好,在过去十年的全社区CASP(蛋白质结构预测关键评估)实验中一直处于领先地位(Yang等人,2015年)。

在这项工作中,我们提出了一个基于序列的从头算法aPRBind(ab-initio Protein-RNA Binding Site Forecast)来预测蛋白质中的RNA结合残基,该算法利用了基于SNB-PSSM的序列特征和基于I-tasser模型的结构特征(包括残基动力学特性和残基核苷酸倾向)。这些特征是通过深度卷积神经网络模型学习的。

2 Methods

2.1 Data

在这项工作中,我们使用基准数据集RB198(El-Manzalawy等人,2016)作为训练集。RB198中的数据是通过从PDB中的蛋白质-RNA复合物中去除满足以下任何标准的复合物而得到的:i)结构分辨率低于3.5µ;ii)蛋白质残基<40或RNA核苷酸<5;iii)界面残基<3;iv)与其他链的序列同源性>30%。RB198数据集有134个复合体,198个蛋白链。

El-Manzalawy等人对许多蛋白质-RNA界面预测服务器进行了相互比较。(El-Manzalawy等人,2016)在基准数据集RB111上,我们使用RB111作为独立的验证数据集,将我们的方法与其他服务器进行比较。

对于这两个数据集,蛋白质的界面残基被定义为至少有一个原子与其伙伴RNA的任何一个原子的距离大于5 A 。 A{^。} A。根据它们是结合残基还是非结合残基,所有残基都被标记为“1”或“0”。在RB198数据集中有7878个结合残基,43150个非结合残基,在RB111数据集中有为3305个结合残基和34255个非结合残基。

2.2 基于 I-TASSER的结构构件

I-TASSER,一种基于线索的蛋白质结构预测方法,由Zhang等人提出。(Yang等人,2015)被用来从它们的序列中构建蛋白质结构。它通过迭代重组从线程模板中提取的结构片段来分层构建全长模型。参数设置为默认值。另外,需要指出的是,在蛋白质结构构建中,所有与查询序列同源性 >30%的模板都被排除在模板库之外。最后,从五个模型中选出TM得分最高的第一个模型作为构建结构。

2.3 Features extraction

我们使用的特征包括序列特征和结构特征。除了基于SPIDER3的特征和物理化学性质外,以下所有特征都属于由I-TASSER从建模结构中提取的结构特征。
基于空间邻居的特定位置评分矩阵(SNBPSSM):
考虑到保守的界面残基经常聚集在蛋白质三级结构中(Ahmad等人,2008;Capra和Singh,2007;Guharoy和Chakrabarti,2010),我们在以前的工作中提出了一种新的进化信息编码方案,即基于空间邻居的PSSM(SNB-PSSM),它不同于平滑的PSSM(Cheng等人,2008)。

在SNB-PSSM方法中,首先,对于含有N个残基的蛋白质,PSSM矩阵的大小为20×N,每个位置都有进化信息。然后,进行基于空间邻域的平滑处理,使目标残基的进化分数为C-α原子与目标残基的进化分数之和的平均值。最后,采用基于空间邻域的窗口方案,将目标残留物的进化信息编码为与目标残留物位置空间最近的25个残留物位置的平滑进化分数。因此,对于一个目标残基,它的进化信息被编码到一个20×25的矩阵中。该编码过程考虑了目标残基周围的空间邻居的演化。

接口倾向(IP):我们从251个非冗余的蛋白质-RNA复合物中提取了考虑蛋白质和RNA二级结构信息的残基-核苷酸倾向性(60×8)作为特征(Li等人,2012)。在倾向性上,蛋白质和RNA的二级结构根据它们的界面倾向性分别被分为三类和两类。特定残基-核苷酸对的倾向性是通过其在界面上的观察概率除以其预期概率来计算的。这里,具有某一类二级结构的残基类型的界面倾向被表示为其对8种核苷酸的成对倾向的平均值。

残留物波动动态:残基波动动力学的特征是由高斯网络模型(GNM)计算的,该模型基于谐波势,已被证明是再现生物大分子内在动力学的可靠方法(Bahar等人,1997)。N个节点的网络的总内部势能可以写为:
V = 1 2 γ [ Δ R T ( Γ ⊗ E ) Δ R ] V=\frac{1}{2} \gamma\left[\Delta \boldsymbol{R}^{T}(\Gamma \otimes \boldsymbol{E}) \Delta \boldsymbol{R}\right]

更多推荐

aPRBind:结合序列和基于卷积神经网络学习的基于I

本文发布于:2024-03-07 08:44:46,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1717356.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:卷积   神经网络   序列   aPRBind

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!