admin管理员组文章数量:1589819
文章目录
- 一、论文基本情况
- 二、前言
- 三、数据
- (一)训练集和测试集
- (二)特征
- 四、方法
- (一)局部特征
- (二)全局特征
- (三)文本卷积神经网络(TextCNN)
- 五、模型的应用域(AD)
- (二)、全局特征的重要性
- (三)预测准确的情况
- (四)不同长度蛋白质的影响
- 七、总结
一、论文基本情况
- 发表期刊:Bioinformatics(最新的IF=5.61)
- 作者及单位:中南大学李敏团队
- 服务器地址:http://bioinformatics.csu.edu/PPISP/
- 代码及数据地址:https://github/CSUBioGroup/DeepPPISP
- 补充材料来源
二、前言
蛋白质-蛋白质相互作用(PPI)在信号转导、运输和新陈代谢起着非常关键的作用,作者引出了一种局部上下文特征和全局序列特征相结合的蛋白质作用位点预测的方法(DeepPPISP)。采用滑动窗口来捕捉目标氨基酸的邻居特征,采用卷积神经网络从整个蛋白质序列中提取特征。
三、数据
(一)训练集和测试集
将三个基准的数据集:Dset_186、Dset_164、 Dset_72这三个基准数据集进行混合,一共就有422条蛋白质序列,但是有两条蛋白质序列没有蛋白质的二级结构的定义(DSSP)文件然,所以删除了两条蛋白质序列,剩下420条蛋白质序列,然后后取83.3%蛋白质序列作为训练集(73188)、16.7%作为测试集(11719),总共的残差数量为84979,即350个蛋白质序列作为训练集( 其中50个用来进行独立验证),70个蛋白质作为测试集。.这三个基准数据集包括了作用位点和非作用位点(具体参数见表一),如果一个氨基酸的绝对溶剂可及性( absolute solvent accessibility)小于1 A^2,则该氨基酸被定义为相互作用位点,否则定义为非作用位点。
数据集 | Dset_72 | Dset_164 | Dset_186 | 总数量 |
---|---|---|---|---|
作用位点残差数量 | 1923 | 6096 | 5517 | 13536 |
非作用位点残差数量 | 16217 | 27585 | 30702 | 74504 |
各数据集总数量 | 18140 | 33681 | 36219 | 88040 |
(二)特征
1、位置特异性矩阵(PSSM)
PSSM是通过运行PSI-BLAST算法在NCBI的非冗余(NR)序列数据库中搜索生成的,有三个迭代,e值阈值为0.001。每个氨基酸被编码为一个含有20个元素的载体。PSSM或特定于位置的评分矩阵是蛋白质BLAST搜索中使用的一种评分矩阵,其中蛋白质多序列比对中每个位置的氨基酸取代分数分别给出。因此,比对中位置A处的Tyr-Trp取代与位置B中相同的取代可能获得非常不同的分数,PSSM分数通常显示为正整数或负整数。正值表示给定的氨基酸替换比对发生的频率比偶然预期的要高,而负值表示替换发生的频率低于预期的发生率。通过输入蛋白质序列的FASTA文件查看PSSM。
Dset_72的一个PSSM[-2, -3, -3, -3, -4, -3, -2, -4, -4, -4, -4, -2, -4, -5, 8, -2, -2, -5, -4, -4]
2、二级构造( Secondary structure)
蛋白质的二级结构是指肽链主链的空间走向(折叠和盘绕方式),是有规则重复的构象。最常见的二级结构单元就是α-螺旋和β-折叠,它们的各种组合决定了蛋白质的主体结构。使用一个9维单向矢量对它们进行编码,也就是说,只有一个元素为1,其他元素为0。前8个维度表示每个氨基酸的状态,最后一个维度不表示二级结构状态的信息。
Dset_72的第一个序列的前三个残基[1, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0]
3、原始蛋白质序列
原始蛋白质序列可以准确地代表每个氨基酸及其位置。大多数蛋白质由20种不同的氨基酸组成。因此,我们使用一个20维one-hot载体来编码蛋白质中的氨基酸类型。
[12, 15, 17, 4, 9, 4, 12, 12, 8, 12, 8, 2, 16, 9, 10, 7, 15, 14, 16, 12, 3, 17, 16, 1, 17, 17, 17, 2, 17, 15, 6, 3, 2, 12, 13, 17, 8, 4, 11, 18, 19, 17, 2, 5, 17, 13, 17, 6, 11, 0, 8, 16, 8, 12, 14, 3, 13, 13, 19, 11, 15, 16, 19, 14, 17, 17, 15, 17, 9, 16, 17, 9, 6, 13, 11, 18, 9, 2, 5, 8, 3, 19, 8, 1, 8, 17, 15, 11, 8, 0, 9, 12, 0, 12, 7, 3, 8, 16, 7, 15, 8, 0, 8, 5, 13, 12, 14, 3, 12, 13, 17, 19, 16, 9, 12, 12, 15, 14, 3, 3, 10, 16, 8, 11, 13, 17, 15, 9, 16, 1, 9, 17, 8, 5, 4, 19, 12, 15, 2, 7, 0, 17, 3, 18, 3, 15, 11, 5, 13, 12, 3, 11, 11, 19, 8, 16, 16, 12, 12, 17, 9, 2, 15, 2, 5, 15, 4, 4, 9, 19, 15, 8, 9, 16, 17, 2, 8, 15, 14, 18, 13, 13, 5, 11, 17, 4, 15, 1, 15, 17, 10, 6, 3, 0, 9, 6, 11, 6, 19, 16, 13, 8, 15, 9, 15, 9, 15]
四、方法
(一)局部特征
采用滑动窗口的方法提取氨基酸的邻居特征。滑动窗口大小为(2n+1)表示我们考虑位于中心的目标氨基酸和2n个相邻的氨基酸作为目标氨基酸的输入特征。例如滑动窗口大小为7,对于每个第i位的氨基酸,将第i-3、i-2、i-1、i、i+1、i+2、i+3位氨基酸的特征视为其局部上下文特征。对于在左或右窗口没有氨基酸邻居的氨基酸,我们使用与特征向量相同长度的全零向量作为其缺失的特征
(二)全局特征
采用深度学习技术从蛋白质序列中学习,每个氨基酸由一个49维特征向量表示(20维为PSSM, 9维为二级结构(dssp),20维为原蛋白序列),所有蛋白质序列的长度都归一化到500。如果一个蛋白质的序列长于500,然后我们截断它;如果小于500,则用0填充。二级结构向量和原始蛋白质向量是稀疏one-hot向量(sparse one-hot vectors),PSSM向量是一个稠密向量。为了避免不同类型的输入特征不一致,受自然语言处理中的词嵌入技术的启发,采用嵌入层将原始蛋白质序列向量的稀疏变换为密集向量,嵌入层之后,将嵌入的原始蛋白质序列载体与PSSM载体和二级结构载体连接作为预处理载体。然后,使用带有最大池化层的文本卷积神经网络提取预处理向量的全局特征。这一层的输出载体连接在一起作为输入蛋白质序列的全局特征。
分类部分包括两个完全连接的层和一个输出层。在分类部分,有两个完全连接的层,以连接的向量作为输入。从第二层完全连接的输出被输入到输出层以一个sigmoid激活函数,执行二元分类,以确定输入的氨基酸是否是一个相互作用位点。
[0, 0, 1, ..., 0, 0, 0]#dset72_sequence_data原始蛋白质稀疏one-hot向量
[1, 0, 0, ..., 0, 0, 0]#dset72_sequence_data的dssp稀疏one-hot向量
[ -3, 2, -3, ..., -6, -5, -5]#dset72_sequence_data的pssm稀疏one-hot向量
(三)文本卷积神经网络(TextCNN)
传统的cnn通常用于提取二维图像数据的特征。TextCNN其中心思想是,文本可以被视为一维图像。一维cnn可以用来捕捉相邻词之间的关系。将整个蛋白质序列作为文本处理。假设一个蛋白质序列由n个氨基酸组成,每个氨基酸用一个m维向量表示。那么可以将蛋白质序列视为一幅图像,宽度为n,高度为1,通道为m。为了捕获不同长度的子序列的特征,使用多个不同尺度的卷积核。我们可以使用不同尺度的卷积核来获得不同数量相邻氨基酸之间的关系(Zeng, et al., 2019)。最大池化层用于捕获每个通道的最重要特征,并降低输出向量的维数。然后将最大池化层的输出向量连接在一起,形成一个包含整个蛋白质序列全局特征的连接向量
五、模型的应用域(AD)
化学空间中围绕模型描述符和模拟响应的理论区域。在QSAR模型的构建中,分子的AD在估计预测某一特定化合物的不确定性方面起着决定性的作用,这种预测基于该化合物与用于构建模型的化合物的相似程度。因此,仅当所预测的化合物在模型的AD范围内时,使用QSAR对建模响应的预测才适用。三种物理化学性质或拓扑性质用于定义适用性域,即假定的相对溶剂可及性(RSA)分数、极性和蛋白质序列长度,如果某一特定的物理化学性质或拓扑性质在训练集的5% ~ 95%范围内,则视为在域中,在0% ~ 5%或95% ~ 100%范围内,视为警告域;如果大于最大值或小于最小值,则视为外域。
(二)、全局特征的重要性
(三)预测准确的情况
(四)不同长度蛋白质的影响
数据集中的蛋白质长度从39-869,有62.1%的蛋白质长度小于200个氨基酸,将蛋白质分为短长度蛋白质(小于200个氨基酸残基)和长长度蛋白质(大于200个氨基酸残基),实验结果如下图:
七、总结
(1)、改进算法提高各个性能
(2)、加入另外两个基准数据集
(3)、增加基准数据集的特征
本文标签: 笔记论文proteinInteractionSite
版权声明:本文标题:论文笔记:Protein-protein interaction site predictionthrough combining local and global features 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1728076749a1144577.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论