将 Pandas 数据帧转换为 Spark 数据帧的 TypeError

Posted 2023-04-15

技术标签:

【中文标题】将 Pandas 数据帧转换为 Spark 数据帧的 TypeError【英文标题】：TypeError converting Pandas dataframe to Spark dataframe 【发布时间】：2016-06-24 19:03:47 【问题描述】：

我有一个名为 pdf 的 Pandas 数据框，它只是四列 float64。以下是前五行：

pdf[:5]

      x1         x2        x3          y
0   9.082060  12.837502  6.484107  10.985202
1   9.715981  14.870818  8.026042  12.815644
2  11.303901  21.286343  7.787188  15.786915
3   9.910293  20.533151  6.991775  14.775010
4  12.394907  15.401446  7.101058  13.213897

还有数据类型：

pdf.dtypes

x1    float64
x2    float64
x3    float64
y     float64
dtype: object

但是当我尝试将其转换为 Spark 数据框时：

sdf = sqlContext.createDataFrame(pdf)

TypeErrorTraceback (most recent call last)
<ipython-input-54-a40cb79104b5> in <module>()
      5                     ])
      6 
----> 7 sdf = sqlContext.createDataFrame(pdf)

/usr/lib/spark/python/pyspark/sql/context.py in createDataFrame(self, data, schema, samplingRatio)
    423             rdd, schema = self._createFromRDD(data, schema, samplingRatio)
    424         else:
--> 425             rdd, schema = self._createFromLocal(data, schema)
    426         jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())
    427         jdf = self._ssql_ctx.applySchemaToPythonRDD(jrdd.rdd(), schema.json())

/usr/lib/spark/python/pyspark/sql/context.py in _createFromLocal(self, data, schema)
    339 
    340         if schema is None or isinstance(schema, (list, tuple)):
--> 341             struct = self._inferSchemaFromList(data)
    342             if isinstance(schema, (list, tuple)):
    343                 for i, name in enumerate(schema):

/usr/lib/spark/python/pyspark/sql/context.py in _inferSchemaFromList(self, data)
    239             warnings.warn("inferring schema from dict is deprecated,"
    240                           "please use pyspark.sql.Row instead")
--> 241         schema = reduce(_merge_type, map(_infer_schema, data))
    242         if _has_nulltype(schema):
    243             raise ValueError("Some of types cannot be determined after inferring")

/usr/lib/spark/python/pyspark/sql/types.py in _infer_schema(row)
    829 
    830     else:
--> 831         raise TypeError("Can not infer schema for type: %s" % type(row))
    832 
    833     fields = [StructField(k, _infer_type(v), True) for k, v in items]

TypeError: Can not infer schema for type: <type 'str'>

如果我尝试指定架构：

schema = StructType([StructField('y', DoubleType()),
                     StructField('x1', DoubleType()),
                     StructField('x2', DoubleType()),
                     StructField('x3', DoubleType())
                    ])
sdf = sqlContext.createDataFrame(pdf, schema)

然后我们得到一个稍微不同的错误：

TypeErrorTraceback (most recent call last)
<ipython-input-55-a7d2b6d09ed3> in <module>()
      5                     ])
      6 
----> 7 sdf = sqlContext.createDataFrame(pdf, schema)

/usr/lib/spark/python/pyspark/sql/context.py in createDataFrame(self, data, schema, samplingRatio)
    423             rdd, schema = self._createFromRDD(data, schema, samplingRatio)
    424         else:
--> 425             rdd, schema = self._createFromLocal(data, schema)
    426         jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())
    427         jdf = self._ssql_ctx.applySchemaToPythonRDD(jrdd.rdd(), schema.json())

/usr/lib/spark/python/pyspark/sql/context.py in _createFromLocal(self, data, schema)
    348         elif isinstance(schema, StructType):
    349             for row in data:
--> 350                 _verify_type(row, schema)
    351 
    352         else:

/usr/lib/spark/python/pyspark/sql/types.py in _verify_type(obj, dataType)
   1132     if _type is StructType:
   1133         if not isinstance(obj, (tuple, list)):
-> 1134             raise TypeError("StructType can not accept object %r in type %s" % (obj, type(obj)))
   1135     else:
   1136         # subclass of them can not be fromInternald in JVM

TypeError: StructType can not accept object 'x1' in type <type 'str'>

我是否遗漏了一些明显的东西？有没有人成功地从 Pandas 数据框构建火花数据框？这适用于 Python 2.7、Spark v1.6.1 和 Pandas v0.18.1。

【问题讨论】：

嗯...我认为它正在尝试获取您的列标题并将它们也视为数据。尝试取出标题。我的假设基于section 中的最后一个示例。它肯定似乎与标题有关；如果我将它们更改为整数，则错误将从有关字符串的警告更改为TypeError: Can not infer schema for type: <type 'numpy.int64'>。但我不认为 Pandas 数据框根本就没有标头，可以吗？它适用于 python 2.7.10 、 spark 1.6.0 和 pandas 0.16.2。可以提供minimal reproducible example吗？特别是很高兴看到您如何创建包含输入数据的 Pandas 数据框（如果相关）。您还可以仔细检查 Pandas 版本：`pd.__version__？ @shivsn 所以我回滚到 Pandas 0.16.2，你瞧，它成功了！但后来我升级回 0.18.1 以验证问题......它仍然有效。所以现在我无法复制我自己的问题，我不确定发生了什么变化。也许类似于this issue？如果我再次找到它，我会更新。 【参考方案1】：

我已经成功复制了这个，它似乎只是关闭 ipython 笔记本并重新打开它。当我启动一个只有 Python 2.7 的新集群时，安装了 pip 和 numpy（默认在引导程序中）并使用 pip.main() 安装 Pandas 0.18.1，然后尝试使用 createDataFrame() 将其转换为 Spark 数据帧，它因上述错误而失败。但是当我关闭并停止笔记本然后重新启动它时，它工作正常。

【讨论】：

以上是关于将 Pandas 数据帧转换为 Spark 数据帧的 TypeError的主要内容，如果未能解决你的问题，请参考以下文章