看到一条错误消息:“numpy.ndarray”对象没有属性“map”

Posted

技术标签:

【中文标题】看到一条错误消息:“numpy.ndarray”对象没有属性“map”【英文标题】:Seeing an error that says: 'numpy.ndarray' object has no attribute 'map' 【发布时间】:2020-05-15 01:46:25 【问题描述】:

我正在从一个更大的数据框中选择一个数据子集。

dataset = df.select('RatingScore',
             'CategoryScore',
             'CouponBin',
             'TTM',
             'Price',
             'Spread',
             'Coupon', 
             'WAM', 
             'DV')

dataset = dataset.fillna(0)
dataset.show(5,True)
dataset.printSchema()

现在,我将其纳入我的 KMeans 模型

from numpy import array
from math import sqrt
from pyspark.mllib.clustering import KMeans, KMeansModel
import numpy as np

data_array=np.array(dataset)

#data_array =  np.array(dataset.select('RatingScore', 'CategoryScore', 'CouponBin', 'TTM', 'Price', 'Spread', 'Coupon', 'WAM', #'DV').collect())

# Build the model (cluster the data)
clusters = KMeans.train(data_array, 2, maxIterations=10, initializationMode="random")

# Evaluate clustering by computing Within Set Sum of Squared Errors
def error(point):
    center = clusters.centers[clusters.predict(point)]
    return sqrt(sum([x**2 for x in (point - center)]))

WSSSE = data_array.map(lambda point: error(point)).reduce(lambda x, y: x + y)
print("Within Set Sum of Squared Error = " + str(WSSSE))

这一行:clusters = KMeans.train(data_array, 2, maxIterations=10, initializationMode="random")

抛出此错误:AttributeError: 'numpy.ndarray' object has no attribute 'map'

从代码中,您可以看到我尝试了两种不同的方式来创建数组。都没有奏效。如果我尝试直接从子集数据框中收取项目费用,我会收到此错误:

AttributeError: 'DataFrame' object has no attribute 'map'

我在这里错过了什么?

【问题讨论】:

这些对象都没有.map 属性,或者就此而言,reduce 您从这些错误消息中了解(不)什么? 这能回答你的问题吗? pandas 'DataFrame' object has no attribute 'map' ***.com/questions/54607989/…, ***.com/questions/39535447/… 【参考方案1】:

我认为有两种方法:

    按照建议的in other similar situations 将pandas.DataFrame 转换为spark_df.rdd 根据its official doc将pandas.DataFrame转化为多个pandas.Series

【讨论】:

以上是关于看到一条错误消息:“numpy.ndarray”对象没有属性“map”的主要内容,如果未能解决你的问题,请参考以下文章

CountVectorizer:AttributeError:“numpy.ndarray”对象没有属性“lower”

在 Scikit Learn 中运行 SelectKBest 后,“numpy.ndarray”对象没有属性“get_support”错误消息

AttributeError:“numpy.ndarray”对象没有属性“lower”

plt.subplots() 中的轴是“numpy.ndarray”对象,没有属性“plot”

无法将 NumPy 数组转换为张量(不支持的对象类型 numpy.ndarray)错误

Numpy.ndarray 对象不可调用错误原因