如何对 DNA 序列(数据集)进行十进制编码?
Posted
技术标签:
【中文标题】如何对 DNA 序列(数据集)进行十进制编码?【英文标题】:How to do decimal encoding of DNA sequences (dataset)? 【发布时间】:2014-09-30 23:16:05 【问题描述】:我需要对我以 FASTA 格式下载的 DNA 序列(核苷酸)序列执行 K 均值聚类和层次聚类。所以在执行聚类之前,我需要对 bases(a,t,c,g) 进行十进制编码.. 那么怎么做.. 这样我就可以在 MATLAB 中以矩阵形式获取这个输入?。
【问题讨论】:
你有 Matlab 的生物信息学工具包吗?它可以直接加载FASTA。 是的先生,我有 MATLAB 生物信息学工具包,但是为了执行 kmeans 聚类,我不需要数值数据.. 为此我需要将 a、c、t、g 转换为十进制值.. 如何这样做.. 还是直接加载 FASTA 文件我可以对这些 fasta 文件执行聚类? 【参考方案1】:使用 nt2int 函数。相关文档如下:
http://www.mathworks.com/help/bioinfo/ref/nt2int.html
【讨论】:
以上是关于如何对 DNA 序列(数据集)进行十进制编码?的主要内容,如果未能解决你的问题,请参考以下文章
Spark 案例类 - 十进制类型编码器错误“无法从十进制向上转换”