{转载}+{实践}hg37转hg38

编程入门 行业动态 更新时间:2024-10-10 17:32:35

{转载}+{实践}hg37转hg38

{转载}+{实践}hg37转hg38

原文:.html

基因组定位转换:

前言:最近在整理一批数据,有一部分数据是hg19的定位,还有一部分是hg38的定位。最后需要将这两部分数据都统一到hg38的定位,因此需要批量将hg19的定位转换到hg38的定位。之前UCSC上有一个工具——hgLiftOver,是在线的。

#(该工具在不同装配之间实现基因组坐标和基因组注释文件转换,可以将数据粘贴至文本框或以文件方式上传。如果一对组装

#无法从下拉菜单中选择,那么两者之间的直接转换是不可用的。然而,序列转换是可以实现的。例如:Mouse,May. 2004 to #Mouse,Feb.2006,之后由Mouse,Feb.2006 to Mouse,July. 2007,从而实现mm5至mm9的转换。)

# minimum ratio of bases that must remap:  0.95

# BED 4 to BED 6 Options:

#allow multiple output regions: Minimum hit size in query:        Minimum chain size in target:

# BED 12 Options:

今天发现了一个NCBI的工具,是一个perl脚本,可以在本地运行(当然还是要联网的)。根据使用说明,该工具一次能转换25万条数据,最多同时运行四个程序,已经够用了。。。

​工具下载地址:remap_api.pl (/)

使用说明:​docs

示例

​​1. 准备gtf格式文件:仅包含一个转录本的三个外显子的定位,lnc-MOCS1-4:1,将该文件保存为"test_hg19_to_hg38.gtf"。

chr6lncipediaexon4042006240420473.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

chr6lncipediaexon4042172840421869.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

chr6lncipediaexon4042915640431723.-.gene_id lnc-MOCS1-4 ; transcript_id lnc-MOCS1-4:1 ; transcript_alias_1 ucscGeneNc_uc003opf_1 ;

​2. 在cmd运行下面的语句:

​E:\rd\012_lncRNA\db_2014-11update\LNCipedia>perl ./remap_api.pl --mode asm-asm --from GCF_000001405.17 --dest GCF_000001405.26 --annotation test_hg19_to_hg38.gtf --annot_out my_annotes.GRCh38.gtf --report_out my_annotes_NCBI37_GRCh38.tsv2 --gbench_out my_annotes_GRCh38.gbp2

说明:

GCF_000001405.17表示GRCh37.p5这一版本的基因组装配号,也就是hg19;

GCF_000001405.26表示GRCh38这一版本的基因组装配号,也就是hg38;

​--annotation 输入文件;

​--annot_out 输出文件。

​3. 运行完后显示如下:

 运行结束后

​ 4. 结果文件如下:

##assembly name=GRCh38

##assembly accession=GCF_000001405.26

#gtf-version 2.2

​chr6lncipediagene4045232340463984.-.gene_id "lnc-MOCS1-4"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; 

chr6lncipediaexon4046141740463984.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "1"; 

chr6lncipediaexon4045398940454130.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "2"; 

chr6lncipediaexon4045232340452734.-.gene_id "lnc-MOCS1-4"; transcript_id "lnc-MOCS1-4:1"; transcript_alias_1 "ucscGeneNc_uc003opf_1"; exon_number "3"; 

​5. 验证:

根据lnc-MOCS1-4:1的序列用blat进行验证link,与结果是一致的。

更多推荐

{转载}+{实践}hg37转hg38

本文发布于:2024-03-09 03:02:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1723533.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!