IM6A

编程入门 行业动态 更新时间:2024-10-10 16:16:38

IM6A

IM6A

《im6A-TS-CNN: Identifying the N6-Methyladenine Site in Multiple Tissues by Using the Convolutional Neural Network》

目录

    • Paper_Info
    • 一、文章核心内容:
    • 二、原文翻译:
      • INTRODUCTION
      • RESULTS AND DISCUSSION
        • Model Performance
        • Comparison with Existing Method
        • Cross-Species and Cross-Tissue Validation
        • Conclusions
      • 材料和方法
        • Datasets
        • One-Hot Encoding
        • Convolutional Neural Network
      • Evaluation Metrics
    • SUPPLEMENTAL INFORMATION

Paper_Info

  • 作者: 刘克维 曹磊 杜普峰 陈伟教授
  • 单位:华北理工大学生命科学学院
  • 发表于 《Molecular Therapy-Nucleic Acids》
  • 在线时间:2020年7月31日
    paper
    code(命令版本)
    报道链接

一、文章核心内容:

  • 检测m6A意义:
    检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。
  • 现有问题:
    虽有实验、计算m6A方法(iRNA-m6A:性能具有提高潜能),但少有方法能在不同的组织中检测到m6A位点。

数据集:
Zhang等人的基准数据集
DAO等人论文工具网站,及数据集下载
模型、方法:im6A-TS-CNN(基于CNN,Python3.6、TensorFlow2.0、Keras)

模型训练:

  • 损失函数:绝对交叉熵; 训练:2000 epochs;

  • 早停:patience 50,最小增量为0.001。、

  • RNA编码方式:ont-hot;

  • 基线对比模型:iRNA-m6A model。

  • 评价指标:sn、sp、acc、mcc、ROC(receiver operating
    characteristic)、AUC(areas under the ROC curve):0.8 评价方法:5倍交叉验证、独立检验。

结果:
5次交叉验证测试和独立数据集测试的结果表明,im6A-TSCNN 在相同目标下优于或可比现有方法。
优点: 实现不同组织m6A检测
人:脑,肝和肾;
小鼠:脑,肝,心脏,睾丸和肾脏;
大鼠:脑,肝,和肾脏)
效果

二、原文翻译:

N6-甲基腺苷(M6A)是含量最丰富的转录后修饰,涉及一系列重要的生物学过程。因此,准确检测m6A位点对于揭示其生物学功能及其对疾病的影响非常重要。虽然已经提出了实验和计算方法来识别m6A位点,但很少有方法能够在不同的组织中检测到m6A位点。考虑到m6A修饰的空间特异性,有必要开发能够检测m6A差异组织的方法,本文利用卷积神经网络(CNN)提出了一种新的方法,称为im6A-TS-CNN,可以识别以鉴定人(脑,肝和肾),小鼠(脑,肝,心脏,睾丸和肾脏)和大鼠(脑,肝,和肾脏)中的m6A位点。在im6A-TS-CNN中,样本采用One-hot码方案进行编码。5次交叉验证检验和独立数据集检验的结果表明,IM6A-TS-CNN在相同的目的下优于现有的方法。命令行版本的im6A-TS-cnn可在。

INTRODUCTION

作为一种常见且丰富的RNA转录后修饰(PTM),N6-甲基腺苷(M6A)修饰几乎在细胞周期的所有过程中都发挥着重要作用,如影响翻译效率、细胞发育、细胞存活等。M6A由含有METTL3、METTL14和WTAP的甲基转移酶复合物催化。作为一种动态的PTM,m6A可以被去甲基化酶FTO和ALKBH5清除。近年来,越来越多的研究表明,m6A与肥胖、甲状腺肿瘤、前列腺癌、zika病毒、和急性髓系白血病等疾病密切相关。为了深入理解对m6A功能的认识,关键是要了解m6A在转录本中的确切位置。

识别m6A位点的方法主要有两种。一种是采用甲基化RNA免疫沉淀、m6A测序(m6A-seq)、光交联辅助(PA)-m6A-seq,m6A交联免疫沉淀(CLIP)等实验方法。这些实验方法为m6A修饰位点的检测奠定了重要基础。因此,一些生物信息学工具被提出,它们能够直接从实验产生的读数中检测m6A位点。然而,随着测序数据量的增加,我们需要找到一种有效和高效的方法来检测转录组中的m6A。因此,提出了基于序列信息的计算方法来识别m6A位点。这些方法可以在最近的综述中提出质疑。随着对基因表达的空间特异性的研究,已经发现m6A位点的位置区别不同组织和物种。因此,Dao等人在张等人数据的基础上,利用支持向量机的算法,提出了一种名为iRNA-m6A的工具,可以识别人类,小鼠和大鼠不同组织中的m6A修饰位点。该方法大大提高了M6A位点预测的准确性。然而,预测m6A位点的性能仍有很大的提高潜力。

近年来,深度学习算法在生物信息学领域做出了巨大贡献。目前已经提出了大量基于深度学习算法的计算方法,如Gene2Vec、BERMP、DeepM6ASeq、和IPseU-CNN等。受深度学习算法在RNA修饰识别中的成功应用的启发,在本工作中,我们提出了一种基于卷积神经网络(CNN)的方法,称为im6ATS-CNN,用于识别人、小鼠和大鼠不同组织中的m6A位点。5次交叉验证测试和独立数据集测试的结果表明,im6A-TSCNN 在相同目标下优于或可比现有方法。此外,还通过跨种验证试验证明了im6A-TS-CNN的普适性。IM6A-TS-CNN的框架如图1所示。

图1.IM6A-TS-CNN的框架第一步是从人、小鼠和大鼠身上收集特定于组织的m6A数据。第二步是使用One-Hot方案对序列进行编码。第三步是模型构建

RESULTS AND DISCUSSION

Model Performance

本文使用Python3.6下的Kerasin TensorFlow2.0进行预测。用于识别人、小鼠和大鼠组织特异性m6A修饰位点的5次交叉验证试验和独立数据集检验的结果如表1所示。通过与5次交叉验证独立试验的结果进行比较,发现所提出的方法对于识别m6A位点是稳定的。

为了客观地衡量所提方法的性能,图2中还绘制了5次交叉验证测试和独立测试的接收器工作特性(ROC)曲线。结果表明,ROC曲线下面积(AUC)在5倍交叉验证试验和独立试验中均大于0.8,证明了该方法识别组织特异性m6A位点的可靠性。

Comparison with Existing Method

为了进一步验证im6A-TS-CNN模型的优越性,我们在5次交叉验证检验和独立检验的基础上,将其与张等人的iRNA-m6A模型进行了性能比较。表2显示了AUC的比较结果。除了从小鼠和大鼠脑中识别m6A位点外,im6A-TS-CNN在识别人、小鼠和大鼠其他组织中的m6A位点方面优于iRNA-m6A。这些结果表明im6A-TS-CNN是鉴定不同物种组织特异性m6A位点的有力工具。

Cross-Species and Cross-Tissue Validation

由于数据集来自不同的物种和组织,因此有趣的是,根据一个物种中特定组织的数据训练的模型是否能够将m6A与其他组织和物种区分开来。因此,进行了跨物种和跨组织的评价。Im6A-TS-CNN用于从其他物种和组织中识别m6A位点的AUC如图3所示。

Conclusions

在这篇文章中,我们提出了一种基于CNN的方法,称为I6mA-TSCNN,用于识别人、小鼠、和大鼠中脑、肝、肾、心脏和睾丸中的m6A,而不是现有的组织特异性m6A的识别方法。为了方便科学界,提供了i6mA-TS-cnn的命令行版本及其源代码和用户手册i6mA-TS-cnn。此外,还提供了高阈值、正常阈值和低阈值选项来控制假阳性率。表S1列出了具有不同选项的相应性能。综上所述,我们希望i6mA-TS-CNN能成为识别m6A站点的有用工具。

材料和方法

Datasets

高质量的数据集对于计算模型的构建是非常重要的。2019年,Zhang等人开发了一种基于m6A敏感RNA内切酶的高通量、抗体无关的m6A检测方法,以确定人、小鼠和大鼠不同组织(即脑、肝、肾、心脏和睾丸)中的m6A位点。基于这些数据,DAO等人构建了一个高质量的基准数据集,该数据集可用于训练识别m6A位点的计算方法,其包含长度为41个核苷酸的包含m6A位点和非m6A位点的序列。使用CD-HIT程序确保数据集的序列相似性小于80%。表3提供了该数据集的详细信息。

DAO等人论文,以及数据集描述
Zhang等人的基准数据集

One-Hot Encoding


长度为l的RNA序列转换成4-l维向量。

Convolutional Neural Network

近年来,卷积神经网络(CNN)被广泛应用于解决生物学问题。22、27、28卷积神经网络的结构如图1所示。它包含一个具有200个滤波器的卷积层,其中核大小为6。经过卷积运算后,添加了大小为4的最大池层。卷积层的数学表示和计算如下:

其中R表示RNA片段,f表示核的索引,j表示输出位置的索引。在等式1中,每个滤波器 W f \mathrm{W}^{f} Wf都是SXN个权重矩阵,其中S是滤波器大小,以及N是输入通道。校正后的线性函数(RELU)表示如下: ReLU ⁡ ( z ) = { z  if  z ≥ 0

更多推荐

IM6A

本文发布于:2024-02-10 21:33:48,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1677402.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:IM6A

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!