如何从NCBI下载基因组数据

Posted Xeonilian

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何从NCBI下载基因组数据相关的知识,希望对你有一定的参考价值。

本文关于如何在 NCBIftp 里下载需要的基因组数据。

例如:我想从NCBI上下载 Escherichia coli ATCC 25922

已知信息

原文提供的信息是:

This Whole Genome Shotgun project has been deposited at DDBJ/EMBL/ GenBank under the accession number ASHD00000000. The version described in this paper is version ASHD01000000.

我们获得的关键信息:

  1. 物种和菌株名字:Escherichia coli ATCC 25922
  2. Accession number:ASHD00000000;
  3. version:ASHD01000000

理论

  • 平时下载单条序列常常是直接从页面选择导出fasta文件,对于基因组应该找到其在FTP中的位置然后将整个文件夹下载下来。

实际操作

  • All database 里搜索 Escherichia coli ATCC 25922后发现在Genome数据库中有1条信息。开心的点开后发现是所有大肠杆菌的基因组信息,一共有9610个。进入list之后搜索25922没有任何结果。

    问题:这里不支持模糊搜索,如果要得到结果,你需要精确的输入 Escherichia coli ATCC 25922 Strain: ATCC 25922 Assembly: GCA_000401755.1。谁会知道这么详细的信息?

  • 正确操作:输入25922之后按上下箭头,会自动补齐。

此时你应当在表中找到:

  1. 可以点进FTP的链接。
  2. Assembly:GCA_000401755.1 。
  3. WGS:ASHD01。

说明

  • 其实我想找的就是这个Assembly No.,因为它直接对应基因组在FTP中的文件夹位置。
  • 点开FTP链接,你会进入以下文件夹:

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/401/755/GCF_000401755.1_Escherichia_coli_ATCC_25922/

 也就是 genomes->all->GCF->000->401->755,F代表这个地方的是reference sequences。
 实际上在 genomes->all->GCA->000->401->755 中有一份一样的。
  • 如果原文提供的是Assembly No,你就不需要再去NCBI查找了,直接能通过FTP地址找到,我一般使用 FileZilla下载。
  • 如果下载多个genomes也能根据Assembly No写简单代码批量操作。

  • WGS 里面你可以单独的看到每个蛋白质,cotig等的信息,实际上就是把FTP里面能下的内容拆开了,并且是页面下载的。

  • NCBI 里面新旧命名系统,一个东西在不同的库里面有不一样的名字很是让新手头痛。

参考

[1] WGS页面,此处应搜索ASHD01。
[2] 所有大肠杆菌基因组汇总,此次使用25922补齐信息搜索。
[3] NCBI提供的如何下载基因组说明。

以上是关于如何从NCBI下载基因组数据的主要内容,如果未能解决你的问题,请参考以下文章

如何计算每个基因的覆盖度与深度

ascp下载ebi ncbi数据库大文件

使用 R 从 NCBI 基因数据库中获取数据

怎样通过NCBI定位一个基因的ID

sh 使用登录号从ncbi下载基因组

为啥NCBI上提供的基因mRNA序列是ATGC,而不是AUGC?谢谢!