如何对 DNA 序列(数据集)进行十进制编码?

Posted

技术标签:

【中文标题】如何对 DNA 序列(数据集)进行十进制编码?【英文标题】:How to do decimal encoding of DNA sequences (dataset)? 【发布时间】:2014-09-30 23:16:05 【问题描述】:

我需要对我以 FASTA 格式下载的 DNA 序列(核苷酸)序列执行 K 均值聚类和层次聚类。所以在执行聚类之前,我需要对 bases(a,t,c,g) 进行十进制编码.. 那么怎么做.. 这样我就可以在 MATLAB 中以矩阵形式获取这个输入?。

【问题讨论】:

你有 Matlab 的生物信息学工具包吗?它可以直接加载FASTA。 是的先生,我有 MATLAB 生物信息学工具包,但是为了执行 kmeans 聚类,我不需要数值数据.. 为此我需要将 a、c、t、g 转换为十进制值.. 如何这样做.. 还是直接加载 FASTA 文件我可以对这些 fasta 文件执行聚类? 【参考方案1】:

使用 nt2int 函数。相关文档如下:

http://www.mathworks.com/help/bioinfo/ref/nt2int.html

【讨论】:

以上是关于如何对 DNA 序列(数据集)进行十进制编码?的主要内容,如果未能解决你的问题,请参考以下文章

提升序列化数据的十六进制十进制编码

理解编码为一个热向量的 DNA 序列的一维卷积

遗传算法——求单变量函数的最值

Spark 案例类 - 十进制类型编码器错误“无法从十进制向上转换”

如何直接从 DataFrame 创建 LablePoint 而无需对数据帧的每一列索引进行硬编码?

perl 从四进制快速切换到十进制