论文解读：Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network|电子爱好者

admin管理员组
文章数量:1589814

论文简介
摘要
介绍
1 相互作用残基对的定义
- 1.1 残基对的结合倾向鉴定
2. 数据集
- 2.1 特征
- - 2.1.1 氨基酸编码
  - 2.1.2 序列特征
  - 2.1.3 结构特征
3.深度学习模型
- 3.1 模型的输入
3.2 模型优化
4.结果
- 4.1 蛋白质中残基的分布趋势
- 4.2 残基绑定倾向
- 4.3 阳性样本具有高结合倾向
- 4.4 与随机抽样数据集的比较
- 4.5 与现有方法的比较
5.讨论
启发

论文简介

论文代码： https://github/Xiaoya-Deng/PPI-sites-prediction
论文原文：https://www.mdpi/1422-0067/21/2/467
补充材料： http://www.mdpi/1422-0067/21/2/467/s1
作者单位：重庆邮电大学
期刊影响因子：4.556（中科院二区）

摘要

提出一种卷积神经网络用于PPI站点预测，并利用残基结合倾向来改善阳性样本。该方法在改进后的数据集上AUC= 0.912。它在具有高结合倾向的样本上比在随机选择的样本上得到更好的结果。这表明在由残基原子之间的距离确定的阳性样品中有相当多的假阳性PPI位点。对于训练集正负样本不平衡的问题采用EasyEnsemble algorithm构建正负样本数量相等的训练集。

最终： 直接取T个基分类的结果（0,1）进行投票，而是把n个基分类器的预测概率进行相加，最后再通过sign函数来决定分类。

介绍

常用的PPI站点预测方法根据其所依据的信息可分为三类：

序列的方法
基于结构的方法
将序列方法和结构方法进行结合

1 相互作用残基对的定义

两个蛋白质的两个残基之间的欧几里德距离小于等于6 Å（埃格斯特朗，1 Å = 0.1奈米），则认为这两个残基之间有相互作用。根据这个定义，得到12138个阳性样本(相互作用的残基对)和5,522,852个阴性样本(非相互作用的残基对)，每个二聚体平均有88个阳性样本和40,006个阴性样本，采用e EasyEnsemble algorithm的方法来平衡正负样本。

1.1 残基对的结合倾向鉴定

显性相互作用残基(DIRs)为真阳性样本（TP）
被动相互作用残基(PIRs)为假阳性样本（FP）

2. 数据集

使用基准数据集 DBD 5.0和 DBD 4.0， DBD 4.0中有116个二聚体与 DBD 5.0相同，进行以下两个操作处理：

一个二聚体的两条相互作用蛋白链来自蛋白质结构分类(SCOP)定义的不同家族，序列同一性小于30%，序列统一性大于30%的去除
在未绑定状态的1ZLI序列中有一些删除，因此它被排除在数据集之外

174个二聚体用于残基的结合倾向和分布趋势的统计
116个二聚体用于模型比较
138个二聚体用于验证

相互作用残基相对丰度（RAIR）：每个残基对的结合倾向
残基丰度(AR)：表示DBD 4.0中174个蛋白复合物的表面残基总数中每个残基(共20个)的频率
相互作用残基丰度(AIR)：表示每个残基与20个残基相互作用的频率(共400对)

公式参数理解：

N： 174个蛋白质复合物的所有表面残基的总数
N i N_i Ni ：残基i的数量
M i j M_{ij} Mij：基j与残基I相互作用的个数
M i M_i Mi：与残基i相互作用的总数

2.1 特征

2.1.1 氨基酸编码

20种氨基酸被编码为独热编码

2.1.2 序列特征

输出轮廓特征:

位置特定评分矩阵( PSSM)和位置特定频率矩阵(PSFM)反映了基于进化信息的蛋白质链特定位置残基的保守性,采用滑动窗口的方法用PSIBLAST对NCBI NR数据库进行3次迭代，e值设置为0.001得到PSSM和PSFM，最后得到一个3 × 40的矩阵。
氨基酸理化性质：
使用了24种氨基酸的物理化学性质。将20个氨基酸根据这些特性分为3组，每组采用一热编码，每个氨基酸用72维向量表示。例如，丙氨酸(A)被编码为：

2.1.3 结构特征

以下五种基于结构的特征是用PSAIA来计算得到：

可及表面面积(ASA)和相对可及表面面积(RASA)来确定蛋白质表面是否有残基
凸度指数(CX)和深度指数(DPX)描述凸度指数(CX)和深度指数(DPX)描述
疏水性

3.深度学习模型

3.1 模型的输入

每个残差对被编码为2 × 217 × 1维向量作为网络的输入。

3.2 模型优化

AdamOptimizer进行训练优化。为了防止训练过程中的过拟合，采用了dropout方法和衰减学习率方法

4.结果

4.1 蛋白质中残基的分布趋势

数据集：174二聚体
为了揭示残基的分布趋势，我们首先比较了蛋白质表面残基(ARs)与整个蛋白质(ARw)之间的丰度(AR)，并用ARw/ARs作为残基在蛋白质内部的倾向指标。

N w N_w Nw:整个蛋白质中特定氨基酸的数量
N i N_i Ni: 蛋白质表面特定氨基酸的数量
A R w AR_w ARw:所有蛋白残基丰富度
A R s AR_s ARs:蛋白质表面的大量残基
ARw/ARs:≥1(阴影)表示倾向于分布在蛋白质内部的残基

4.2 残基绑定倾向

数据集： 论文45
蛋白质残基对不同残基表现出不同的结合倾向。我们使用统计学方法将与某一特定残基相互作用的残基分为高结合倾向残基和低结合倾向残基组，并将其结合倾向与残基的极性、疏水性和分布趋势进行比较。
相互作用残基的相对丰度(RAIR):(RAIR≥1(阴影部分，第2-21行)表示具有高结合倾向的残基对)

结果：

10个残基(亮氨酸、异亮氨酸、缬氨酸、精氨酸、组氨酸、半胱氨酸、蛋氨酸、酪氨酸、色氨酸和苯丙氨酸)显示出高的倾向与大多数残基结合(RAIR评分≥1，阴影)
除精氨酸(极性= 10.5)和组氨酸(极性= 10.4)外，大多数具有高结合倾向的残基与极性≤7(阴影极性得分)的残基重叠
疏水性正的残基(阴影疏水性评分)也表现出更高的结合倾向，除丙氨酸、甘氨酸和脯氨酸具有正疏水性，但结合倾向低。相反，精氨酸和组氨酸具有负疏水性，但结合倾向高
ARw/ARs≥1(阴影ARw/ARs评分)的残基与那些具有高结合倾向的残基具有很高的一致性，除了丙氨酸(ARw/ARs = 1.22)和精氨酸(ARw / ARs = 0.95）

4.3 阳性样本具有高结合倾向

对两个样本数据集(一个具有高绑定倾向，另一个没有绑定倾向)进行留一交叉验证，两个样本数据集，一个具有高绑定倾向，另一个没有。从DBD 5.0版本的138个二聚体中，共获得12138个阳性样本，5,534,983个阴性样本(Section 4.1)。在阳性样本中，结合倾向≥1的残基对6739对作为最终阳性样本。每种二聚体平均有49对阳性样本。
数据集： 138二聚体
验证方法：留一交差验证

4.4 与随机抽样数据集的比较

数据集：138个二聚体
进一步验证绑定倾向的合理性,进行了一次5倍交叉验证来比较我们的模型的性能与高数据集绑定倾向和数据集随机抽样(也有6739对残渣)从138个二聚体。

4.5 与现有方法的比较

采用的数据集： 116 二聚体
验证方法： 留一交叉验证

第一正向预测的第一阶（RFPP）：
RFPP表示在p%的二聚体在前q预测中至少有一个真正阳性的相互作用残基对

**结果：**在复合物的RFPP(100)上有了明显的改进，说明我们的模型具有更好的泛化能力，（如果自己结果并不是所有评价性能都超过时，怎样表示）

5.讨论

利用残留结合倾向筛选阳性样本，显著提高了预测性能。我们的方法可能有点激进，但结果表明，通过引入结合倾向来减少假阳性样本的比例是有意义的
极性残基组氨酸也表现出了较高的结合倾向
(ARw/ARs > 1)具有更高的结合倾向。因为大多数这些残基是疏水的，如果它们出现在蛋白质的表面，它们倾向于与其他蛋白质表面的疏水残基相互作用。
在具有高结合倾向的改进数据集上。这说明在6Å定义获得的原始阳性样本中存在不可忽视的假阳性交互对，这可能会阻碍提高预测蛋白质作用位点的准确性。

启发

如果没有测试集，可以采用多种验证的方法，也是能够达到实验目的撰写论文
如果正负样本不平衡时可以抛弃对ACC、SN、SP、MCC这些值的比较
可以采用类似 EasyEnsemble algorithm类似的方法平衡正负样本不均衡的问题
当正负样本不均衡时，第一阶第一正向预测（RFPP）可应用于蛋白质相互作用的评价指标
可以通过自己改造基准数据集，然后用其他的方法进行实验，而不是仅仅去做别人的数据集，用自己的方法。
仅仅通过利用序列数据进行简单的实验已经不是蛋白质领域的主流，结构序列数据和结构数据来做可以有效的提升预测的结果。

本文标签：论文 protein prediction Interaction Network

版权声明：本文标题：论文解读：Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728076604a1144559.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

论文解读：Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network

目录

论文简介

摘要

介绍

1 相互作用残基对的定义

1.1 残基对的结合倾向鉴定

2. 数据集

2.1 特征

2.1.1 氨基酸编码

2.1.2 序列特征

2.1.3 结构特征

3.深度学习模型

3.1 模型的输入

3.2 模型优化

4.结果

4.1 蛋白质中残基的分布趋势

4.2 残基绑定倾向

4.3 阳性样本具有高结合倾向

4.4 与随机抽样数据集的比较

4.5 与现有方法的比较

5.讨论

启发

更多相关文章

【论文阅读】Hierarchical Alternate Interaction Network for RGB-D Salient Object Detection

手把手教你使用SPSS做出亚组分析的交互作用效应(p for Interaction)

AI医药论文笔记--SSI–DDI: substructure–substructure interactions for drug–drug interaction prediction

深入理解CANoe交互层（Interaction Layer，IL）以及IL CAPL函数简介

TFNet: Multi-Semantic Feature Interaction for CTR Prediction 论文简读

论文解读：Prediction of Protein–Protein Interaction Sites Using Convolutional Neural Network

Danmaku: A New Paradigm of Social Interaction via Online Videos作者的两篇论文核心概括

【论文】(IJCAI20 知识图谱神经网络)KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation

论文阅读15：IGFormer: Interaction Graph Transformer for Skeleton-based Human Interaction Recognition_ECCV

WEBGIS使用OpenLayers3中Interaction绘制长方形和正方形

12An Interaction-aware Attention Network for Speech Emotion Recognition in Spoken Dialogs

Openlayers ol.interaction.Select传值问题

《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记

多模态融合(七)Multi-modality Latent Interaction Network for Visual Question Answering

IFM论文笔记：Interaction-aware Factorization Machines for Recommender Systems

基于XR Interaction ToolKit开发的VR双平台兼容项目(二)

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

WPF MVVM UserControl 的 i:Interaction.Triggers 应用

CVPR2019-行人重识别-Interaction-and-Aggregation Network for Person Re-identification

发表评论

推荐文章

安卓恶意App竟有90万，爱加密为移动支付App提供安全！

Linux操作系统3：Linux常用命令

win7打补丁显示不适用计算机,更新win7系统提示“此更新不适用于您的计算机”如何解决...

计算机网络中IP地址的配置方法,网络ip地址设置多少_电脑ip地址一般设置多少-win7之家...

MathType7.6官方最新破解版许可证激活码

热门文章

python license 过期_pycharm2020.2专业版永久激活(已失效)

公章逼真教程_30多种逼真的小工具设计Photoshop教程

Linux| Linux常用命令汇总

chrom浏览器flash_谷歌浏览器怎么打开flash_最新版chrome怎么开启flash-win7之家

计算机桌面显示左右有黑边,电脑屏幕两侧有黑边框如何恢复全屏_电脑左右有黑边框怎么弄-win7之家...

并发编程 — 线程

性能优化系列（七）APK 体积优化

前沿重器[28] | 前沿的向量召回都是怎么做的

win10记住了远程连接密码，下次登录仍然需要输入的解决方案

各种品牌主板、笔记本、台式一体机的U盘启动热键一览表

最新文章

Go 1.16中，go module机制的变化 no required module provides package err

国防科大人工智能考研_AI +消费级无人机技术将改变国防部

经典编译错误&amp;警告收集

RunTimeError: CUDA error: no kernel image is available for execution on the device

【程序设计】Matplotlib运行错误的解决方法

windows下配置ssh（FreeSSHD + putty）

打包local .aar文件加载编译问题

靶机渗透练习20-My School

向服务器拉代码时出现sign_and_send_pubkey: signing failed: agent refused operation和Permission denied(publickey)

[Nvidia]驱动安装报错：An NVIDIA kernel module ‘nvidia-xxx‘ appears to already be loaded in your kernel

springCloud-alibaba-整合springsecurity+oauth2 进行接口保护，使用FeignClient 自定义授权header 进行远程服务调用

【Python】Flask 框架安装虚拟环境报错—处理中......

The dependencies of some of the beans in the application context form a cycle

The Shawshank Redemption-7

搞定Direct local .aar file dependencies are not supported when building an AAR.把AAR以module方式加入

小米手机肿么还原时钟

经典编译错误&警告收集

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载