如何使用 python 运行具有分类特征的 Spark 逻辑回归?
Posted
技术标签:
【中文标题】如何使用 python 运行具有分类特征的 Spark 逻辑回归?【英文标题】:How do I run the Spark logistic regression with categorical features using python? 【发布时间】:2015-02-18 15:59:00 【问题描述】:我有一个包含一些分类变量的数据,我想使用 Mllib 运行逻辑回归,看起来模型只支持连续变量。 请问有谁知道怎么处理?
【问题讨论】:
【参考方案1】:与其他线性模型一样,逻辑回归将 RDD 作为输入,而 LabeledPoint 是 Double(标签)和关联的 Vector(双精度数组)。
不支持分类值(字符串),但您可以将它们转换为二进制列。
例如,如果您有一列 RAG 取值 Red、Amber 和 Green,您将添加三个二进制列 isRed、isAmber 和 isGreen,其中只有一个为 1(真),其他为 0(零)每个样本。
见进一步解释:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html
【讨论】:
以上是关于如何使用 python 运行具有分类特征的 Spark 逻辑回归?的主要内容,如果未能解决你的问题,请参考以下文章
使用 sklearn - python 具有分类特征的多元线性回归
如何使用具有面部特征的 openCV 训练支持向量机(svm)分类器?
机器学习:如何在具有分类和数字特征的 pandas 数据帧上应用一种热编码?