Apache Mahout 中的矢量化
Posted
技术标签:
【中文标题】Apache Mahout 中的矢量化【英文标题】:Vectorization in Apache Mahout 【发布时间】:2012-08-09 14:03:35 【问题描述】:我是 Mahout 的新手。我需要将文本文件转换为向量以便在后期进行分类。
任何人都可以对以下这些问题有所了解吗?
-
如何在 mahout 中将文本文件转换为矢量?
文件格式类似于“用户名|关于项目的评论|评分”
数据将是几个 TB。那么使用我想创建的向量,我可以使用哪种算法实现分类?
谢谢, 阿伦
【问题讨论】:
【参考方案1】:您可以查看这 2 个示例,这些示例在某种程度上也说明/解释了如何使用序列文件 API。 Here 和 here
你绝对应该阅读这个intro来进行文本分析
【讨论】:
以上是关于Apache Mahout 中的矢量化的主要内容,如果未能解决你的问题,请参考以下文章