《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译

编程入门 行业动态 更新时间:2024-10-22 07:54:17

《nature》重磅论文《使用深度<a href=https://www.elefans.com/category/jswz/34/1765938.html style=卷积网络的精确体细胞变异检测》翻译"/>

《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译


Deep convolutional neural networks for accurate somatic mutation detection

《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译

介绍:
准确的体细胞突变检测是癌症分析的难点。这篇文章提出一个东西叫做:NeuSomatic,首个使用深度学习神经网络的体细胞突变检测方法。这个东西的表现明显好于旧的方法(比如different sequencing platforms, sequencing strategies, and tumor purities)。NeuSomatic把序列对齐汇聚成小矩阵并包含了超过一百个特征图来有效捕捉变异信号。这个东西可以独立地用来作为检测体细胞变异的办法,或者配合其他已有办法以取得高检测精度。


背景:
体细胞突变是个关键信号,对于癌症的发生、演变、治疗来说。精确体细胞变异的检测是很难得,因为有如下原因:肿瘤-正常部位的交叉污染,肿瘤异质性,sequencing artifacts(这是什么?)and coverage。总体来说,过滤假阳性(由于之前的原因)保留真阳性(常发生在低等位基因频率和低复杂度区域),是高检测精度的关键。

到目前为止,一系列办法被开发用来检测体细胞突变,比如MuTect,MuSE, VarDict, VarScan2, Strelka2, and SomaticSniper.
这些办法用了数据和算法的分析,对于特定的样本表现还是不错的。但是没有什么广泛性、普适性。在我们之前的办法中,SomaticSeq,使用了模型融合的办法,集成了算法正交办法,提高了灵敏度。同时使用了机器学习的办法,集成了约100个特征,来保持高精度,几乎比所有其他单个办法都要好。此外,这个机器学习的骨架模型在使用时依赖于一系列从变异位置抽取的特征。结果这个模型不能从基因文本信息中捕获体细胞突变的关键信息,以区别真正的体细胞突变和检测误差。因而限制了模型表现。特别是在低复杂度和低肿瘤纯度区域的情况下。

这里我们解决了这个问题。用卷积神经网络CNN。 CNN最近在分类问题上表现出强大的能力,包括 germline variant calling和皮肤癌分类。但是这个技术还没有在体细胞突变领域被人使用过。唯一的神经网络使用案例是有人用一个6层的全连接网络应用在手动提取的一些列特征上。这种办法没有用到强大的卷积网络,只是学习了直接从局部区域,用模式识别的思路,重新提取了特征而已。同时,由于全卷积网络的复杂性,他的推广性、普适性不如CNN。

所以我们提出NeuSomatic,首个基于CNN的体细胞变异检测的办法,能够从对齐序列和其他方法中中提取有效信息。和其他关注germline variants的办法不同, NeuSomatic在解决一个更大的没有被解决的,复杂肿瘤样本情况下的精度问题。这个办法能直接从原始数据中捕捉变异信号,能持续输出较高的精度,即使是不同的序列技术(sequencing tech)、样本纯度(sample purities)、序列策略(sequencing strategies 比如 全基因序列whole-genome 对比 目标增强target enrichment)。

结果
NeuSomatic 总览



NeuSomatic 的网络输入是根据扫描序列对齐(从肿瘤样本中)和匹配正常样本中来的候选体细胞变异样本。(见图)。从其他办法中找到的体细胞变异也可能被包含其中。对于每个候选变异样本,我们构建了一个矩阵M,大小为 k532,k是通道数,来捕捉核心(locus)四周的中心区域。每个通道有5行,代表4个碱基或者一个‘-’,32列表示候选位置周围的对齐列。

首先三个通道,分别表示reference通道, tumor-frequency通道,normal-frequency 通道,这几个通道的作用文中说是:summarize the reference bases around the candidate locus, as well as the frequency of different bases in that region. 我们用空缺(gaps)来扩充候选中心点附近的参考序列,来捕捉读取对齐(read alignments)时的多余插入(insertions)。所以说,在MSA(multiple sequence alignment)列中,每列表示了肿瘤和正常序列矩阵的ACGT或者空缺的频率。剩余的通道,汇总了其他特征,比如coverage,base quality, mapping quality, strand-bias,clipping info for reads supporting different bases。如果NeuSomatic方法被用在模型融合中,可以使用额外的通道,来对应那些单独的体细胞变异检测方法所使用的特征。在这种精度下,外加全面的结构化的特征提取,NeuSomatic可以利用必要的肿瘤和正常组织和reference中的信息,来区别低等位基因频率下的基因变异和测序误差,获取体细胞变异。这种设计方便CNN中的卷积过滤器能够在矩阵的小块中提取模式特征。

和其他CNN模型比较,DeepVariant在模型输入时输入了阅读堆积式(read pileup)的基因变体识别。作为对比,我们的办法是每一列是基于一个频率的汇总,来作为模型的输入。这简化了CNN的结构,使得实现起来更有效率。比如,DeepVariant 需要约1000个cpu核-小时来计算30个全基因样本对应的基因变异。而一个单独的NeuSomatic能从30个肿瘤-正常样本对中检测体细胞变异,需要约156个cpu核-小时。另一个基因变异发现办法,Clair-voyante,使用3个通道来汇总等位基因,删除的、插入的数量。作为对比,我们用了一个基础的频率矩阵汇总了这些动作,并使用了相关的之前提到的数据扩增办法,这就能够代表所有的插入、删除动作,在所有的窗口中。

NeuSomatic 利用了给定的特征矩阵,部署了一个原始的CNN结构来预测候选体细胞变异位置的类型和长度。这个CNN保罗9层卷积层,4个区块,带有shortcut identity短路连接,(受resnet启发),但是是一个不同的变种,来适应所需要的输入结构。我们在最后一层使用了两个softmax分类器和一个回归器。第一个分类器用来判断这个候选者是否是体细胞,或者SNV、插入、删除。这个第二个分类器用来预测体细胞变异的长度,四种分类结构:0表示非体细胞,1、2、大于2表示长度。回归器用来预测体细胞变异的具体位置。使用这些预测的结果我们就能够判断一系列的体细胞变异。如果删除插入(INDELs)的长度被检测出超过了2,我们就会执行一个简单的后处理步骤,来处理和那些位置的重合的读取片段,来解决从对齐CIGAR序列读取的INDEL序列。(we perform a simple post-processing step on reads overlapping that position to resolve the INDEL sequence from the read alignment CIGAR string)他妈的,这英文怎么这么绕。这种办法依据证明性能卓越,对于Illumina公司的数据序列来说。为了更高的错误率序列、数据、更复杂的本地对齐后处理被执行以便解决INDEL序列。

既然NeuSomatic能被单独来用或者用来做模型融合,那么我们用NeuSomatic-S来指代单独使用的模型,NeuSomatic就表示融合的模型。我们拿NeuSomatic和NeuSomatic-S和现在主流的模型如MuTect2, MuSE, SomaticSniper, Strelka2, VarDict, and VarScan2作比较。我们比较了多个合成的和真实的数据集,我们的报告如下,合成数据集的顺序是以一个不断增加的体细胞变异检测难度的顺序排列的。难度的高低是考虑了数据集中的AF指标。

比较:略




总结


NeuSomatic是第一个基于深度学习的框架体细胞突变检测,这是高性能且通用的。使用相同的CNN架构时,它可以实现
跨多个数据集和不同肿瘤纯度的最佳准确性。从合成到真实的数据集,涵盖从全基因组到靶向以及多种测序策略多种测序技术,从短读到高错误的长读。特别是对于低肿瘤纯度和低等位基因频率,NeuSomatic明显优于其他基因最新的体细胞突变检测方法,展示了其解决难题的能力。NeuSomatic利用卷积网络,有效实现神经网络解决体细胞突变检测速度和准确性问题。它使用了新颖的总结肿瘤/正常比对信息作为一组输入矩阵的办法,可以有效地捕获基因组环境中的主要信号。在这些矩阵上训练的CNN体​​系结构可以直接从原始数据中学习特征。从观察到的训练数据中学到的深层功能可以准确识别可以区分真正的变异与测序错误,交叉污染或覆盖偏差所带来的假象。我们相信NeuSomatic通过为体细胞突变提供一种非常广泛适用的方法,极大地改善了最新技术检测。


作者Sayed Mohammad,原创翻译自nature communication网站,
原文地址是.pdf

更多推荐

《nature》重磅论文《使用深度卷积网络的精确体细胞变异检测》翻译

本文发布于:2024-03-08 19:20:28,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1722012.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:卷积   体细胞   重磅   精确   深度

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!