如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?

Posted

技术标签:

【中文标题】如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?【英文标题】:How to convert below text to sequence file which again, will be converted to vector for mahout kmeans? 【发布时间】:2012-08-07 08:39:30 【问题描述】:

大家下午好,

我的数据格式如下:

ID : VALUE(用户分配的标签)

0001:“PC、THINKPAD、T500”

0002:“电话、手机、IPHONE、苹果、IPHONE5”

.......等等。

如何编写代码:

1) 首先,将它们转换成key:value格式的序列文件。

2) 那么,将上面的序列文件转换为将用于kmeans聚类的向量吗?

我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles,但现在这些似乎有点复杂,而且有点难以阅读。

那么,我想知道这里是否有人可以给我一个简单的示例代码,说明如何进行上述两种转换?

非常感谢!

【问题讨论】:

【参考方案1】:

这 2 个进程完全按照您的意愿执行,现在只需使输出可读,而不是序列文件,您可以使用 seqdumper 功能。

如果您需要更清晰的图片,请查看here,非常好的介绍。

【讨论】:

seqdirectory 将目录结构转换为序列文件,而我所有的数据都在一个文件中。无论如何,我已经编写了一些代码,将数据以 Key:value 格式放入序列文件。并使用了 seq2sparse ,而 kmeans 成功地完成了剩下的工作。非常感谢您的回复! 您还可以查看这 2 个示例,这些示例也可以解释/解释如何使用序列文件 API。 Here 和 here

以上是关于如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 XSLT 2.0 将 csv 文件转换为结构化 XML 文件?

我如何在复杂的文本文件中通过用户输入获取特定数据并转换为csv?

如何将 magenta.js 音符序列转换为 midi 文件?

如何在 Python 中将 ABC 表示法的音乐文件转换为 midi 或 mp3 [关闭]

如何在 C++ 中将文本文件输入转换为数组

我如何将文本文件转换为小写并查找字母的频率?