如何使用 python 运行具有分类特征的 Spark 逻辑回归?

Posted

技术标签:

【中文标题】如何使用 python 运行具有分类特征的 Spark 逻辑回归?【英文标题】:How do I run the Spark logistic regression with categorical features using python? 【发布时间】:2015-02-18 15:59:00 【问题描述】:

我有一个包含一些分类变量的数据,我想使用 Mllib 运行逻辑回归,看起来模型只支持连续变量。 请问有谁知道怎么处理?

【问题讨论】:

【参考方案1】:

与其他线性模型一样,逻辑回归将 RDD 作为输入,而 LabeledPoint 是 Double(标签)和关联的 Vector(双精度数组)。

不支持分类值(字符串),但您可以将它们转换为二进制列。

例如,如果您有一列 RAG 取值 Red、Amber 和 Green,您将添加三个二进制列 isRed、isAmber 和 isGreen,其中只有一个为 1(真),其他为 0(零)每个样本。

见进一步解释:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html

【讨论】:

以上是关于如何使用 python 运行具有分类特征的 Spark 逻辑回归?的主要内容,如果未能解决你的问题,请参考以下文章

使用 sklearn - python 具有分类特征的多元线性回归

如何使用具有面部特征的 openCV 训练支持向量机(svm)分类器?

如何创建具有多个分类特征的 SVM?

机器学习:如何在具有分类和数字特征的 pandas 数据帧上应用一种热编码?

将 OneHotEncoder 用于决策树分类器中的分类特征

朴素贝叶斯分类算法预测具有属性的人是不是买电脑python