稀疏向量与密集向量

Posted

技术标签:

【中文标题】稀疏向量与密集向量【英文标题】:Sparse Vector vs Dense Vector 【发布时间】:2015-10-09 22:52:42 【问题描述】:

如何创建SparseVector 和密集向量表示

如果DenseVector 是:

denseV = np.array([0., 3., 0., 4.])

什么是稀疏向量表示?

【问题讨论】:

对于那些阅读“”标题并正在寻找何时使用的解释的人,this answer 有您正在寻找的信息。 【参考方案1】:

除非我完全误解了您的疑问,否则MLlib data type documentation 非常清楚地说明了这一点:

import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;

// Create a dense vector (1.0, 0.0, 3.0).
Vector dv = Vectors.dense(1.0, 0.0, 3.0);
// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.
Vector sv = Vectors.sparse(3, new int[] 0, 2, new double[] 1.0, 3.0);

Vectors.sparse 的第二个参数是索引数组,第三个参数是这些索引中实际值的数组。

【讨论】:

哦,我没有传递正确的索引数。 SparseV = SparseVector(4, [0, 1, 2, 3], [0., 3., 0., 4.]) 数字即1后面的点有什么意义? 点只是表示浮点类型。 1. 等价于 1.0 @MohitShah (i) 它实际上是链接文档中的第一个代码示例,并且 (ii) 答案还包括显示如何创建稀疏向量的示例。【参考方案2】:

稀疏向量是指向量中有很多值为零。而密集向量是指向量中的大多数值都不为零。

如果必须从指定的密集向量创建稀疏向量,请使用以下语法:

import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;

Vector sparseVector = Vectors.sparse(4, new int[] 1, 3, new double[] 3.0, 4.0);

【讨论】:

以上是关于稀疏向量与密集向量的主要内容,如果未能解决你的问题,请参考以下文章

将密集向量与 Tensorflow 中稀疏矩阵的每一行相乘

spark-mllib 密集向量和稀疏向量

为啥 scipy 的稀疏 csr_matrix 的向量点积比 numpy 的密集数组慢?

稀疏矩阵与密集矩阵乘法 C++ Tensorflow

向量矩阵乘法、浮点向量、二进制矩阵

将稀疏特征向量分解为单独的列