Apache Mahout 中的矢量化

Posted

技术标签:

【中文标题】Apache Mahout 中的矢量化【英文标题】:Vectorization in Apache Mahout 【发布时间】:2012-08-09 14:03:35 【问题描述】:

我是 Mahout 的新手。我需要将文本文件转换为向量以便在后期进行分类。

任何人都可以对以下这些问题有所了解吗?

    如何在 mahout 中将文本文件转换为矢量? 文件格式类似于“用户名|关于项目的评论|评分” 数据将是几个 TB。那么使用我想创建的向量,我可以使用哪种算法实现分类?

谢谢, 阿伦

【问题讨论】:

【参考方案1】:

您可以查看这 2 个示例,这些示例在某种程度上也说明/解释了如何使用序列文件 API。 Here 和 here

你绝对应该阅读这个intro来进行文本分析

【讨论】:

以上是关于Apache Mahout 中的矢量化的主要内容,如果未能解决你的问题,请参考以下文章

Apache Doris 向量化设计与实现

Fortran 中的矢量化总和

TensorFlow Lite 中的动态范围量化和全整数量化如何优化?

GlobalMapper精品教程043:图片自动矢量化

GlobalMapper精品教程043:图片自动矢量化

gcc中的数组与指针自动矢量化