卷积神经网络特征编码来预测蛋白质"/>
结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质
1. 介绍
蛋白质和RNA相互作用的识别是一个重要的生物信息学问题。目前,RNA与蛋白质相互作用的鉴定方法大致可分为两类:基于实验的鉴定方法和基于计算的鉴定方法。基于实验的方法往往受到自身局限性的制约,不仅耗时费力,而且增加了实验结果的不稳定性。因此,基于计算的RNA与蛋白质相互作用预测方法越来越受到研究者的关注。
本研究提出了一种基于序列的方法,利用卷积神经网络(CNN)结合极端学习机器(ELM)分类器来预测RNA -蛋白质的相互作用。首先,将RNA和蛋白质序列转换成易于计算机处理的数字描述符。在这里,为了携带更多的生物信息,考虑使用包含生物进化信息的特定位置得分矩阵(PSSM)来转换序列数据。然后,使用CNN从这些数值描述符中提取隐藏的高级抽象特征。最后将这些特征输入ELM分类器进行准确分类。该方法的流程图如下图所示。
2. 材料和方法
A. 基准数据集
为了评估该方法的性能,利用四个基准数据集中验证了该方法,包括RPI1807、RPI2241、RPI369和NPInter v2.0数据集。
表1显示了上述数据集的详细信息。
B. 序列的数字表示
为了便于计算机处理,需要将RNA和蛋白质的字母序列转换成数字矩阵。由于RNA和蛋白序列的构造不同,使用保留序列转换(OPT)和位置特异性评分矩阵(PSSM)方法对它们进行数值转换。
OPT算法可以充分利用相邻核苷酸位置的信息,将每个RNA序列转换成稀疏矩阵。考虑一个RNA序列,p=’P1P2…PN其中Pi是A,C,U,G中的一个,i=1,2,…,N,N表示RNA序列的长度。在这里,考虑到三个字母组成一个三元组,并使用它来扫描RNA序列,以建立稀疏矩阵。具体来说,依次扫描三个相邻的字母,形成RNA序列如下:(1,2,3)(2,3,4),…,(N-2,N-1,N)。这样我们就得到了从RNA序列转换而来的64×(N-2)邻接矩阵R。
这里,T(i)=[AAA,AAC,…,UUU]。因此,利用最优算法将RNA序列转化为数值稀疏矩阵。
对于蛋白序列,使用包含生物进化信息的PSSM算法进行数值变换。PSSM算法在远缘蛋白的检测,蛋白二级结构预测、蛋白结合位点预测和无序区预测方面取得了很大的成功。PSSM的结构是一个N×20的矩阵,其中N表示蛋白质序列的长度,20表示天然氨基酸的数量。假设Mat={τi,j,i=1…N, j=1…20},PSSM矩阵能够被如下表示:
式中,在PSSM的i行中,τi,j表示该残基在蛋白质进化过程中突变为20个天然氨基酸的j型的概率。在实验中,利用特定位置的迭代BLAST (PSI-BLAST)工具将蛋白质序列转换为数值矩阵。为了得到最好的结果,将PSI-BLAST工具设置为针对SwissProt的数据库,迭代次数为3次,e值为0.001。
C. 卷积神经网络
由于文章在服务器上,全文内容详见:/service/main.php?version=1&type=article&id=16
更多推荐
结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质
发布评论