论文笔记：Protein-protein interaction site predictionthrough combining local and global features|电子爱好者

admin管理员组
文章数量:1589819

文章目录

一、论文基本情况
二、前言
三、数据
（一）训练集和测试集
（二）特征
四、方法
（一）局部特征
（二）全局特征
（三）文本卷积神经网络(TextCNN)
五、模型的应用域（AD）
（二）、全局特征的重要性
（三）预测准确的情况
（四）不同长度蛋白质的影响
七、总结

一、论文基本情况

发表期刊：Bioinformatics（最新的IF=5.61）
作者及单位：中南大学李敏团队
服务器地址：http://bioinformatics.csu.edu/PPISP/
代码及数据地址：https://github/CSUBioGroup/DeepPPISP
补充材料来源

二、前言

蛋白质-蛋白质相互作用(PPI)在信号转导、运输和新陈代谢起着非常关键的作用，作者引出了一种局部上下文特征和全局序列特征相结合的蛋白质作用位点预测的方法（DeepPPISP）。采用滑动窗口来捕捉目标氨基酸的邻居特征，采用卷积神经网络从整个蛋白质序列中提取特征。

三、数据

（一）训练集和测试集

将三个基准的数据集：Dset_186、Dset_164、 Dset_72这三个基准数据集进行混合，一共就有422条蛋白质序列，但是有两条蛋白质序列没有蛋白质的二级结构的定义(DSSP)文件然，所以删除了两条蛋白质序列，剩下420条蛋白质序列，然后后取83.3%蛋白质序列作为训练集（73188）、16.7%作为测试集（11719），总共的残差数量为84979，即350个蛋白质序列作为训练集（其中50个用来进行独立验证），70个蛋白质作为测试集。.这三个基准数据集包括了作用位点和非作用位点（具体参数见表一），如果一个氨基酸的绝对溶剂可及性（ absolute solvent accessibility）小于1 A^2，则该氨基酸被定义为相互作用位点，否则定义为非作用位点。

表一：三个数据集残差作用|非作用的数量

数据集	Dset_72	Dset_164	Dset_186	总数量
作用位点残差数量	1923	6096	5517	13536
非作用位点残差数量	16217	27585	30702	74504
各数据集总数量	18140	33681	36219	88040

图一：三个数据集蛋白质序列的长度范围/center>

（二）特征

1、位置特异性矩阵（PSSM）
PSSM是通过运行PSI-BLAST算法在NCBI的非冗余(NR)序列数据库中搜索生成的，有三个迭代，e值阈值为0.001。每个氨基酸被编码为一个含有20个元素的载体。PSSM或特定于位置的评分矩阵是蛋白质BLAST搜索中使用的一种评分矩阵，其中蛋白质多序列比对中每个位置的氨基酸取代分数分别给出。因此，比对中位置A处的Tyr-Trp取代与位置B中相同的取代可能获得非常不同的分数，PSSM分数通常显示为正整数或负整数。正值表示给定的氨基酸替换比对发生的频率比偶然预期的要高，而负值表示替换发生的频率低于预期的发生率。通过输入蛋白质序列的FASTA文件查看PSSM。

Dset_72的一个PSSM[-2, -3, -3, -3, -4, -3, -2, -4, -4, -4, -4, -2, -4, -5, 8, -2, -2, -5, -4, -4]

2、二级构造（ Secondary structure）
蛋白质的二级结构是指肽链主链的空间走向（折叠和盘绕方式），是有规则重复的构象。最常见的二级结构单元就是α-螺旋和β-折叠，它们的各种组合决定了蛋白质的主体结构。使用一个9维单向矢量对它们进行编码，也就是说，只有一个元素为1，其他元素为0。前8个维度表示每个氨基酸的状态，最后一个维度不表示二级结构状态的信息。

Dset_72的第一个序列的前三个残基[1, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0]

图二、二级构造

3、原始蛋白质序列
原始蛋白质序列可以准确地代表每个氨基酸及其位置。大多数蛋白质由20种不同的氨基酸组成。因此，我们使用一个20维one-hot载体来编码蛋白质中的氨基酸类型。

[12, 15, 17, 4, 9, 4, 12, 12, 8, 12, 8, 2, 16, 9, 10, 7, 15, 14, 16, 12, 3, 17, 16, 1, 17, 17, 17, 2, 17, 15, 6, 3, 2, 12, 13, 17, 8, 4, 11, 18, 19, 17, 2, 5, 17, 13, 17, 6, 11, 0, 8, 16, 8, 12, 14, 3, 13, 13, 19, 11, 15, 16, 19, 14, 17, 17, 15, 17, 9, 16, 17, 9, 6, 13, 11, 18, 9, 2, 5, 8, 3, 19, 8, 1, 8, 17, 15, 11, 8, 0, 9, 12, 0, 12, 7, 3, 8, 16, 7, 15, 8, 0, 8, 5, 13, 12, 14, 3, 12, 13, 17, 19, 16, 9, 12, 12, 15, 14, 3, 3, 10, 16, 8, 11, 13, 17, 15, 9, 16, 1, 9, 17, 8, 5, 4, 19, 12, 15, 2, 7, 0, 17, 3, 18, 3, 15, 11, 5, 13, 12, 3, 11, 11, 19, 8, 16, 16, 12, 12, 17, 9, 2, 15, 2, 5, 15, 4, 4, 9, 19, 15, 8, 9, 16, 17, 2, 8, 15, 14, 18, 13, 13, 5, 11, 17, 4, 15, 1, 15, 17, 10, 6, 3, 0, 9, 6, 11, 6, 19, 16, 13, 8, 15, 9, 15, 9, 15]

四、方法

（一）局部特征

采用滑动窗口的方法提取氨基酸的邻居特征。滑动窗口大小为(2n+1)表示我们考虑位于中心的目标氨基酸和2n个相邻的氨基酸作为目标氨基酸的输入特征。例如滑动窗口大小为7，对于每个第i位的氨基酸，将第i-3、i-2、i-1、i、i+1、i+2、i+3位氨基酸的特征视为其局部上下文特征。对于在左或右窗口没有氨基酸邻居的氨基酸，我们使用与特征向量相同长度的全零向量作为其缺失的特征

图三、局部特征的滑动窗口模式

（二）全局特征

采用深度学习技术从蛋白质序列中学习，每个氨基酸由一个49维特征向量表示(20维为PSSM, 9维为二级结构（dssp），20维为原蛋白序列)，所有蛋白质序列的长度都归一化到500。如果一个蛋白质的序列长于500，然后我们截断它;如果小于500，则用0填充。二级结构向量和原始蛋白质向量是稀疏one-hot向量（sparse one-hot vectors），PSSM向量是一个稠密向量。为了避免不同类型的输入特征不一致，受自然语言处理中的词嵌入技术的启发，采用嵌入层将原始蛋白质序列向量的稀疏变换为密集向量，嵌入层之后，将嵌入的原始蛋白质序列载体与PSSM载体和二级结构载体连接作为预处理载体。然后，使用带有最大池化层的文本卷积神经网络提取预处理向量的全局特征。这一层的输出载体连接在一起作为输入蛋白质序列的全局特征。
分类部分包括两个完全连接的层和一个输出层。在分类部分，有两个完全连接的层，以连接的向量作为输入。从第二层完全连接的输出被输入到输出层以一个sigmoid激活函数，执行二元分类，以确定输入的氨基酸是否是一个相互作用位点。

[0, 0, 1, ..., 0, 0, 0]#dset72_sequence_data原始蛋白质稀疏one-hot向量

[1, 0, 0, ..., 0, 0, 0]#dset72_sequence_data的dssp稀疏one-hot向量

[ -3,   2,  -3, ...,  -6,  -5,  -5]#dset72_sequence_data的pssm稀疏one-hot向量

图四、输入的数据包括两种类型的数据:子序列和全蛋白序列。对于子序列，滑动窗口大小为7应用于提取目标氨基酸的邻居特征。然后将这三种特征组合成一个局部特征向量，对于整个蛋白质序列，长度(L)设置为500。首先，通过原始序列特征嵌入，将三种类型的特征连接到预处理过的向量上，然后将其输入到不同核(13,15,17)的文本cnn中，得到全局序列特征向量。将局部特征向量和全局特征向量进行连接，然后将连接后的特征向量输入到两个完全连接的层中进行预测。

（三）文本卷积神经网络(TextCNN)

传统的cnn通常用于提取二维图像数据的特征。TextCNN其中心思想是，文本可以被视为一维图像。一维cnn可以用来捕捉相邻词之间的关系。将整个蛋白质序列作为文本处理。假设一个蛋白质序列由n个氨基酸组成，每个氨基酸用一个m维向量表示。那么可以将蛋白质序列视为一幅图像，宽度为n，高度为1，通道为m。为了捕获不同长度的子序列的特征，使用多个不同尺度的卷积核。我们可以使用不同尺度的卷积核来获得不同数量相邻氨基酸之间的关系(Zeng, et al.， 2019)。最大池化层用于捕获每个通道的最重要特征，并降低输出向量的维数。然后将最大池化层的输出向量连接在一起，形成一个包含整个蛋白质序列全局特征的连接向量

图五、TextCNN的补充理解

五、模型的应用域（AD）

化学空间中围绕模型描述符和模拟响应的理论区域。在QSAR模型的构建中，分子的AD在估计预测某一特定化合物的不确定性方面起着决定性的作用，这种预测基于该化合物与用于构建模型的化合物的相似程度。因此，仅当所预测的化合物在模型的AD范围内时，使用QSAR对建模响应的预测才适用。三种物理化学性质或拓扑性质用于定义适用性域，即假定的相对溶剂可及性(RSA)分数、极性和蛋白质序列长度，如果某一特定的物理化学性质或拓扑性质在训练集的5% ~ 95%范围内，则视为在域中，在0% ~ 5%或95% ~ 100%范围内，视为警告域;如果大于最大值或小于最小值，则视为外域。

图六、作用域的理解 # 六、结果 # （一）、与其他方法比较 ![在这里插入图片描述](https://img-blog.csdnimg/20210103172044481.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dhbmdwYW4wMDc=,size_16,color_FFFFFF,t_70#pic_center) 图七、与其他方法比较的相关参数

图八、AUPRC的比较

（二）、全局特征的重要性

图九、ROC曲线

图十、DeepPPISP(去除全局特征)的ROC曲线，在局部上下文特征中加入个体特征。仅使用PSSM的ROC曲线下面积最大，达到0.610。

图十一、相关参数比较

（三）预测准确的情况

图十二、预测准确度分析在P00268蛋白质序列中

图十三、在P31243通过DeepPPISP和其他竞争方法

（四）不同长度蛋白质的影响

数据集中的蛋白质长度从39-869，有62.1%的蛋白质长度小于200个氨基酸，将蛋白质分为短长度蛋白质(小于200个氨基酸残基)和长长度蛋白质(大于200个氨基酸残基)，实验结果如下图：

图十四、长于200或短于200的蛋白的预测性能

七、总结

（1）、改进算法提高各个性能
（2）、加入另外两个基准数据集
（3）、增加基准数据集的特征

本文标签：笔记论文 protein Interaction Site

版权声明：本文标题：论文笔记：Protein-protein interaction site predictionthrough combining local and global features 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728076749a1144577.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

论文笔记：Protein-protein interaction site predictionthrough combining local and global features

文章目录

一、论文基本情况

二、前言

三、数据

（一）训练集和测试集

（二）特征

四、方法

（一）局部特征

（二）全局特征

（三）文本卷积神经网络(TextCNN)

五、模型的应用域（AD）

（二）、全局特征的重要性

（三）预测准确的情况

（四）不同长度蛋白质的影响

七、总结

更多相关文章

Unity InputSystem--Interaction--Hold修正

开源GIS（五）——openlayers中interaction的select、draw与modify

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation

论文解读：KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

【AAAI2022】FDIWN - Feature Distillation Interaction Weighting Network for Lightweight Image SR

C# 学习笔记四 弹出输出框 Interaction.InputBox

论文阅读：Compositional Learning for Human Object Interaction

读论文，第十三天：DualRing: Enabling Subtle and Expressive Hand Interaction with Dual IMU Rings

Interaction triggers in WPF

16.Modularized Interaction Network for Named Entity Recognition 阅读笔记

Openlayers 遍历查找交互事件（ol.interaction）

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

OpenLayer学习之ol.interaction.Select

RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 论文阅读

WPF Interaction

【论文笔记】《Efficient Physics-Based Implementation for Realistic Hand-Object Interaction...》

CVPR2019-行人重识别-Interaction-and-Aggregation Network for Person Re-identification

分子间相互作用——偶极作用dipolar-dopolar interaction

Active Interaction 使用指南

关于vivado implement后clockinteraction报告的理解（更新中）

发表评论

推荐文章

Visual Studio 2017 正式版 激活 企业版序列号+专业版序列号

linux常用命令-删除空目录rmdir

Linux实验一：常用的Linux命令

【Tableau Desktop 企业日常问题29】Tableau desktop 更换电脑的时候 迁移License

清空的回收站还能找回里面的文件吗？

热门文章

VMware安装WinXP蓝屏及激活

Linux常用命令和快捷键大全

macbook更新系统服务器,mac系统怎么更新_苹果笔记本系统如何更新-win7之家

计算机桌面闪动,电脑屏幕闪动怎么解决_电脑屏幕闪烁不停抖动修复方法-win7之家...

笔记本电脑中计算机在哪里找,笔记本电脑上的蓝牙在哪里_笔记本电脑怎么找蓝牙-win7之家...

HOOK技术

MATLAB算法实战应用案例精讲-【自动驾驶】自动驾驶中的自动泊车功能（补充篇）

宝塔Linux面板介绍安装命令！

win10怎么设置电脑开机密码

解决台式机开机后再连接视频线不显示的问题

最新文章

NO pyvenv.cfg file解决办法

ROS queue_size和buff_size设置

Go 1.16中，go module机制的变化 no required module provides package err

国防科大人工智能考研_AI +消费级无人机技术将改变国防部

经典编译错误&amp;警告收集

Update your application to remove the dependency cycle between beans

windows下配置ssh（FreeSSHD + putty）

打包local .aar文件加载编译问题

靶机渗透练习20-My School

向服务器拉代码时出现sign_and_send_pubkey: signing failed: agent refused operation和Permission denied(publickey)

SSH连接远程Linux服务器时出现“Server Refused Your Key” 错误的一种解决方法

Ubuntu 22.04 使用私钥登录时提示 server refused our key

springCloud-alibaba-整合springsecurity+oauth2 进行接口保护，使用FeignClient 自定义授权header 进行远程服务调用

【Python】Flask 框架安装虚拟环境报错—处理中......

The dependencies of some of the beans in the application context form a cycle

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

C# 学习笔记四弹出输出框 Interaction.InputBox

Visual Studio 2017 正式版激活企业版序列号+专业版序列号

【Tableau Desktop 企业日常问题29】Tableau desktop 更换电脑的时候迁移License

经典编译错误&警告收集

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载