结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质

编程入门 行业动态 更新时间:2024-10-09 09:15:12

结合高速ELM学习和深度<a href=https://www.elefans.com/category/jswz/34/1765938.html style=卷积神经网络特征编码来预测蛋白质"/>

结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质

1. 介绍

    蛋白质和RNA相互作用的识别是一个重要的生物信息学问题。目前,RNA与蛋白质相互作用的鉴定方法大致可分为两类:基于实验的鉴定方法和基于计算的鉴定方法。基于实验的方法往往受到自身局限性的制约,不仅耗时费力,而且增加了实验结果的不稳定性。因此,基于计算的RNA与蛋白质相互作用预测方法越来越受到研究者的关注。
    本研究提出了一种基于序列的方法,利用卷积神经网络(CNN)结合极端学习机器(ELM)分类器来预测RNA -蛋白质的相互作用。首先,将RNA和蛋白质序列转换成易于计算机处理的数字描述符。在这里,为了携带更多的生物信息,考虑使用包含生物进化信息的特定位置得分矩阵(PSSM)来转换序列数据。然后,使用CNN从这些数值描述符中提取隐藏的高级抽象特征。最后将这些特征输入ELM分类器进行准确分类。该方法的流程图如下图所示。

2. 材料和方法

A. 基准数据集

    为了评估该方法的性能,利用四个基准数据集中验证了该方法,包括RPI1807、RPI2241、RPI369和NPInter v2.0数据集。
    表1显示了上述数据集的详细信息。

B. 序列的数字表示

    为了便于计算机处理,需要将RNA和蛋白质的字母序列转换成数字矩阵。由于RNA和蛋白序列的构造不同,使用保留序列转换(OPT)和位置特异性评分矩阵(PSSM)方法对它们进行数值转换。
    OPT算法可以充分利用相邻核苷酸位置的信息,将每个RNA序列转换成稀疏矩阵。考虑一个RNA序列,p=’P1P2…PN其中Pi是A,C,U,G中的一个,i=1,2,…,N,N表示RNA序列的长度。在这里,考虑到三个字母组成一个三元组,并使用它来扫描RNA序列,以建立稀疏矩阵。具体来说,依次扫描三个相邻的字母,形成RNA序列如下:(1,2,3)(2,3,4),…,(N-2,N-1,N)。这样我们就得到了从RNA序列转换而来的64×(N-2)邻接矩阵R。

这里,T(i)=[AAA,AAC,…,UUU]。因此,利用最优算法将RNA序列转化为数值稀疏矩阵。
    对于蛋白序列,使用包含生物进化信息的PSSM算法进行数值变换。PSSM算法在远缘蛋白的检测,蛋白二级结构预测、蛋白结合位点预测和无序区预测方面取得了很大的成功。PSSM的结构是一个N×20的矩阵,其中N表示蛋白质序列的长度,20表示天然氨基酸的数量。假设Mat={τi,j,i=1…N, j=1…20},PSSM矩阵能够被如下表示:

    式中,在PSSM的i行中,τi,j表示该残基在蛋白质进化过程中突变为20个天然氨基酸的j型的概率。在实验中,利用特定位置的迭代BLAST (PSI-BLAST)工具将蛋白质序列转换为数值矩阵。为了得到最好的结果,将PSI-BLAST工具设置为针对SwissProt的数据库,迭代次数为3次,e值为0.001。

C. 卷积神经网络

由于文章在服务器上,全文内容详见:/service/main.php?version=1&type=article&id=16

更多推荐

结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质

本文发布于:2024-03-07 08:46:42,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1717359.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:卷积   神经网络   蛋白质   深度   特征

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!