热点新闻
如何下载基因组注释文件和复制链接(以GCA_000817325.1为例)
2023-07-11 00:19  浏览:6037  搜索引擎搜索“养老之家”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在养老之家看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

进入NCBI,search











点击Genomes





勾选,Download Package,选择基因组注释文件,有GFF、GTF两种格式

这样就可以直接下载基因组注释文件啦



如何得到基因组注释文件的链接?





点击ASM81732v1





点击legacy Assembly page





有两个数据库可以选择,这里选用了RefSeq





右键选择你想要的文件,就可以打开链接或者直接复制链接啦








下载

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz

解压

gunzip GCA_000817325.1_ASM81732v1_genomic.gff

查找

grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t' -v OFS='\t' '{if($5<10000){print $5}}'|sort|uniq|wc -l

'^CP006471.1'  抓取以该染色体序列号开头的行

awk

按行处理文件,处理完一行,再处理下一行

默认空格为分隔符,多个空格也识别为一个空格

-v FS='\t' 指定空格为输入分隔符

-v OFS='\t' 指定空格为输出分隔符(列分隔符)

$5<10000,$5,第五列, 统计前10kb的基因

sort 排序

uniq 去重

wc 统计







\t和' '完全不一样

.gff文件以\t为分隔符

如果grep的时候,以' '为分隔符,得到的结果就是错的,刚好是18(如果没有uniq去重,也是18)

发布人:ad2c****    IP:125.64.97.***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发