如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?
Posted
技术标签:
【中文标题】如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?【英文标题】:How to convert below text to sequence file which again, will be converted to vector for mahout kmeans? 【发布时间】:2012-08-07 08:39:30 【问题描述】:大家下午好,
我的数据格式如下:
ID : VALUE(用户分配的标签)
0001:“PC、THINKPAD、T500”
0002:“电话、手机、IPHONE、苹果、IPHONE5”
.......等等。
如何编写代码:
1) 首先,将它们转换成key:value格式的序列文件。
2) 那么,将上面的序列文件转换为将用于kmeans聚类的向量吗?
我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles,但现在这些似乎有点复杂,而且有点难以阅读。
那么,我想知道这里是否有人可以给我一个简单的示例代码,说明如何进行上述两种转换?
非常感谢!
【问题讨论】:
【参考方案1】:这 2 个进程完全按照您的意愿执行,现在只需使输出可读,而不是序列文件,您可以使用 seqdumper
功能。
如果您需要更清晰的图片,请查看here,非常好的介绍。
【讨论】:
seqdirectory 将目录结构转换为序列文件,而我所有的数据都在一个文件中。无论如何,我已经编写了一些代码,将数据以 Key:value 格式放入序列文件。并使用了 seq2sparse ,而 kmeans 成功地完成了剩下的工作。非常感谢您的回复! 您还可以查看这 2 个示例,这些示例也可以解释/解释如何使用序列文件 API。 Here 和 here以上是关于如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 XSLT 2.0 将 csv 文件转换为结构化 XML 文件?
我如何在复杂的文本文件中通过用户输入获取特定数据并转换为csv?
如何将 magenta.js 音符序列转换为 midi 文件?