怎么用bioedit在基因组序列中找出已知序列的序列相似

Posted 2023-05-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎么用bioedit在基因组序列中找出已知序列的序列相似相关的知识，希望对你有一定的参考价值。

最近在做实验，需要用到生物信息学软件，但不知怎么用，望高手指教..具体是对实验室中的一种菌进行了基因组测序，得到很多Contig，现有另一种菌的一个基因序列，怎么利用bioedit软件在基因组序列中找出与这个基因序列相似性较高的Contig，不胜感激！

Bioedit提供了本地blast工具（菜单里的local blast 功能），如图一。

你需要把基因组数据做成本地数据库，使用菜单里的create a local nucleotide database file功能建立本地DNA数据库，建库的原始数据需要做成fasta格式的，建成的数据库存放在...\\bioedit\\database文件夹里。

然后用另一种菌的基因序列和基因组本地数据库做blastn或者tblastx（图二），就能找到与这个基因序列相似性较高的contig了。

我的bioedit版本较低，估计也能参考吧。

也可以直接从NCBI下载本地blast相关程序，使用dos命令行操作。

参考技术A 1. 用已有的contig序列制作一个数据库。
2. 用新的序列作为query, 数据库选择刚刚建好的那个，设置blastn参数(就是定义相似性）
通常看e-value，越小越好，然后看hits的长度。如果相似性很高，但覆盖率比较小，也不是你希望的结果。

怎样在genbank基因库中找出我需要的基因序列啊？

我想做植物中一种酶的基因克隆，NCBI上只有植物的全基因测序结果，但是我想做的酶的基因可能是推测出来的，不能直接在基因库中查询的该酶基因的序列，现在我想设计引物，需要提供该酶的基因序列，我该怎么办？这个问题已经困扰我很久了，不知道怎么解决，希望各位高手能够知道一下，不胜感激！！！

在GeneBank 中查找基因序列只要输入accession号就可以了，下面网址就是一个基因的全部序列信息的例子，http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html，在记录的末尾有各种记录的详细说明，如果你没有accession号，可以把你手头的编号用source等信息源转换成accession号，中文教程太古老了，如果你是初学者一定要养成看英文文献的习惯，要是特别想看中文翻译的话，书店里随便一本生物信息学书里都会介绍数据库的，不过有些翻译过来的东西真的很别扭。 2、关于在GeneBank中查找序列我有几点体会：最直接、最简单的方法是手头有基因的accession号；
如果没有就需要明确两个重要的内容，即基因名称及物种信息（如果有最好是拉丁全名），基因名称尽可能详细，避免搜出一些不相关的信息；
搜索的时候建议先用NCBI的Gene数据库搜索，这样得到的accession号是属于NCBI工作人员重新整理过的Refseq的序列，这样会比较可靠；当然这个要看你的分析目的，如果你是要对该序列进行下游的分子生物学操作or分析，选这种序列我觉得会比较好，如果是要进行多序列的分析or其他目的需要全面分析该序列的，可能需要其他序列做补充，但是我觉得序列越多问题越说不清楚，因为毕竟不是自己的序列，如果Gene数据库里没有收录，那就只有在Nucleotide数据库里找了，但是还是建议采用Refseq的序列，Refseq序列特征如下：
Accession prefix Molecule type Comment
AC_ Genomic Complete genomic molecule, alternate assembly NC_ Genomic Complete genomic molecule, reference assembly NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGSa NW_ Genomic Contig or scaffold, primarily WGSa NS_ Genomic Environmental sequence NZ_b Genomic Unfinished WGS NM_ mRNA NR_ RNA
XM_c mRNA Predicted model XR_c RNA Predicted model
AP_ Protein Annotated on AC_ alternate assembly NP_ Protein YP_c Protein
XP_c Protein Predicted model
ZP_c Protein Predicted model, annotated on NZ_ genomic records a Whole Genome Shotgun sequence data. b An ordered collection of WGS for a genome. c Computed.
其他值得考虑的是，对于真核生物最好找注释为全长的mRNA序列，原核生物最好有起始密码子和终止密码子参考技术A 既然你知道给酶的基本信息，那么一定有很多文献报道，包括克隆信息等等。而且只要你知道该基因的名称，必定会从genebank中extrat到一些序列，如果实在不行，只能从同源性上找，利用保守序列去钓一钓呢？参考技术B 先从文献找找酶的信息，在ncbi上查，没有该酶相关信息的话，可以从同源性高的其他植物中，利用保守序列去尝试

以上是关于怎么用bioedit在基因组序列中找出已知序列的序列相似的主要内容，如果未能解决你的问题，请参考以下文章

什么是基因注释？

GENES模块---批量的引物设计、批量的序列提取以及批量翻译

做过DNA，基因，序列分析之类的请进！

如何用MEGA7做序列比对？

已知二叉树先序遍历和后序遍历序列，求可能的中序遍历序列及方案数

如何在genbank查找某个细菌的基因序列？