admin管理员组文章数量:1658610
这个软件比较重要,尤其是对做遗传变异相关研究的,很多人做完了snp-calling后喜欢用ANNOVAR来进行注释,但是那个注释还是相对比较简单,只能得到该突变位点在基因的哪个区域,那个基因这样的信息,如果想了解更具体一点,就需要更加功能化的软件了,snpEFF就是其中的佼佼者,而且是java平台软件,非常容易使用!而且它的手册写的非常详细:http://snpeff.sourceforge/SnpEff_manual.html
1 889455 . G A . . ## 假设我们的vcf文件里面记录的突变是这个,那么我们可以用snpEFF进行注释,注释得到的信息非常完全!
信息用|符号分割,所有很容易用脚本提取需要的信息
ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T|||||351|,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)
包括突变类型是:non_coding_exon_variant
突变在各种转录本上面,在每个转录本的第几个碱基呀,哪个氨基酸的改变呀,氨基酸第几位呀!
标准突变表示形式是:
突变发生在NOC2L这个基因上面,它的ensembl 数据库ID是ENSG00000188976
其余的看头文件自己慢慢理解:
"Functional annotations: 'Allele | Annotation | Annotation_Impact | Gene_Name | Gene_ID | Feature_Type | Feature_ID | Transcript_BioType | Rank | HGVS.c | HGVS.p | cDNA.pos / cDNA.length | CDS.pos / CDS.length | AA.pos / AA.length | Distance | ERRORS / WARNINGS / INFO'
软件安装:
因为是java软件,unzip 解压之后就可以直接使用,当然前提是你有java平台。
输入数据:
首先下载用来做注释的数据库:java -jar snpEff.jar download GRCh37.75(自己选择需要的版本)
软件下载很快,但是数据库下载就需要一定时间啦,去喝杯咖啡吧。
然后软件本身会提供example文件,里面就是一堆各种各样的vcf数据,而且还提供了运行命令,非常简单(examples.sh) ,这些就是我们的输入数据啦!
运行命令:
运行也很简单:java -Xmx4G -jar snpEff.jar -i vcf -o vcf GRCh37.75 example.vcf > example_snpeff.vcf
指定输入输出格式都是vcf,然后指定刚才下载的必备数据库,然后输入输出文件即可!
也可以调用全路径,如果你写在脚本里面的话!
java -Xmx4G -jar path/to/snpEff/snpEff.jar \
-c path/to/snpEff/snpEff.config \
GRCh37.69 \
path/to/example.vcf > example_snpeff.vcf
结果解读:
这个非常复杂,对结果理解了多少,就是我们对软件理解了多少。
具体大家看readme吧,注释信息太多了,按需索取:
chromosome_number_variation
exon_loss_variant
frameshift_variant
stop_gained
stop_lost
start_lost
splice_acceptor_variant
splice_donor_variant
rare_amino_acid_variant
missense_variant
inframe_insertion
disruptive_inframe_insertion
inframe_deletion
disruptive_inframe_deletion
5_prime_UTR_truncation+exon_loss_variant
3_prime_UTR_truncation+exon_loss
splice_branch_variant
splice_region_variant
splice_branch_variant
stop_retained_variant
initiator_codon_variant
synonymous_variant
initiator_codon_variant+non_canonical_start_codon
stop_retained_variant
coding_sequence_variant
5_prime_UTR_variant
3_prime_UTR_variant
5_prime_UTR_premature_start_codon_gain_variant
upstream_gene_variant
downstream_gene_variant
TF_binding_site_variant
regulatory_region_variant
miRNA
custom
sequence_feature
conserved_intron_variant
intron_variant
intragenic_variant
conserved_intergenic_variant
intergenic_region
coding_sequence_variant
non_coding_exon_variant
nc_transcript_variant
gene_variant
chromosome
版权声明:本文标题:java vcf文件增量写入,用snpEFF对vcf格式的突变数据进行注释 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dongtai/1729813881a1213668.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论