{转载}+{实践}hg37转hg38
原文:.html
基因组定位转换:
前言:最近在整理一批数据,有一部分数据是hg19的定位,还有一部分是hg38的定位。最后需要将这两部分数据都统一到hg38的定位,因此需要批量将hg19的定位转换到hg38的定位。之前UCSC上有一个工具——hgLiftOver,是在线的。
#(该工具在不同装配之间实现基因组坐标和基因组注释文件转换,可以将数据粘贴至文本框或以文件方式上传。如果一对组装
#无法从下拉菜单中选择,那么两者之间的直接转换是不可用的。然而,序列转换是可以实现的。例如:Mouse,May. 2004 to #Mouse,Feb.2006,之后由Mouse,Feb.2006 to Mouse,July. 2007,从而实现mm5至mm9的转换。)
# minimum ratio of bases that must remap: 0.95
# BED 4 to BED 6 Options:
#allow multiple output regions: Minimum hit size in query: Minimum chain size in target:
# BED 12 Options:
今天发现了一个NCBI的工具,是一个perl脚本,可以在本地运行(当然还是要联网的)。根据使用说明,该工具一次能转换25万条数据,最多同时运行四个程序,已经够用了。。。
工具下载地址:remap_api.pl (/)
使用说明:docs
示例:
1. 准备gtf格式文件:仅包含一个转录本的三个外显子的定位,lnc-MOCS1-4:1,将该文件保存为"test_hg19_to_hg38.gtf"。
chr6lncipediaexon4042006240420473.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;
chr6lncipediaexon4042172840421869.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;
chr6lncipediaexon4042915640431723.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;
2. 在cmd运行下面的语句:
E:\rd\012_lncRNA\db_2014-11update\LNCipedia>perl ./remap_api.pl --mode asm-asm --from GCF_000001405.17 --dest GCF_000001405.26 --annotation test_hg19_to_hg38.gtf --annot_out my_annotes.GRCh38.gtf --report_out my_annotes_NCBI37_GRCh38.tsv2 --gbench_out my_annotes_GRCh38.gbp2
说明:
GCF_000001405.17表示GRCh37.p5这一版本的基因组装配号,也就是hg19;
GCF_000001405.26表示GRCh38这一版本的基因组装配号,也就是hg38;
--annotation 输入文件;
--annot_out 输出文件。
3. 运行完后显示如下:
运行结束后
4. 结果文件如下:
##assembly name=GRCh38
##assembly accession=GCF_000001405.26
#gtf-version 2.2
chr6lncipediagene4045232340463984.-.gene_id "lnc-MOCS1-4"; transcript_alias_1 "ucscGeneNc_uc003opf_1";
chr6lncipediaexon4046141740463984.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "1";
chr6lncipediaexon4045398940454130.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "2";
chr6lncipediaexon4045232340452734.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "3";
5. 验证:
根据lnc-MOCS1-4:1的序列用blat进行验证link,与结果是一致的。
更多推荐
{转载}+{实践}hg37转hg38
发布评论