来自Python Dictionary的PySpark Dataframe没有Pandas

Posted 2021-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了来自Python Dictionary的PySpark Dataframe没有Pandas相关的知识，希望对你有一定的参考价值。

我试图将以下Python dict转换为PySpark DataFrame，但我没有得到预期的输出。

dict_lst = {'letters': ['a', 'b', 'c'], 
             'numbers': [10, 20, 30]}
df_dict = sc.parallelize([dict_lst]).toDF()  # Result not as expected
df_dict.show()

有没有办法在不使用熊猫的情况下做到这一点？

答案

引用myself：

我发现将createDataFrame（）的参数视为元组列表是有用的，其中列表中的每个条目对应于DataFrame中的一行，并且元组的每个元素对应一列。

所以最简单的方法是将字典转换为这种格式。您可以使用zip()轻松完成此操作：

column_names, data = zip(*dict_lst.items())
spark.createDataFrame(zip(*data), column_names).show()
#+-------+-------+
#|letters|numbers|
#+-------+-------+
#|      a|     10|
#|      b|     20|
#|      c|     30|
#+-------+-------+

以上假设所有列表的长度相同。如果不是这种情况，则必须使用itertools.izip_longest（python2）或itertools.zip_longest（python3）。

from itertools import izip_longest as zip_longest # use this for python2
#from itertools import zip_longest # use this for python3

dict_lst = {'letters': ['a', 'b', 'c'], 
             'numbers': [10, 20, 30, 40]}

column_names, data = zip(*dict_lst.items())

spark.createDataFrame(zip_longest(*data), column_names).show()
#+-------+-------+
#|letters|numbers|
#+-------+-------+
#|      a|     10|
#|      b|     20|
#|      c|     30|
#|   null|     40|
#+-------+-------+

另一答案

你的dict_lst实际上并不是你想要用来创建数据帧的格式。如果你有一个dict列表而不是列表的dict，那会更好。

此代码从您的列表dict创建一个DataFrame：

from pyspark.sql import SQLContext, Row

sqlContext = SQLContext(sc)

dict_lst = {'letters': ['a', 'b', 'c'], 
             'numbers': [10, 20, 30]}

values_lst = dict_lst.values()
nb_rows = [len(lst) for lst in values_lst]
assert min(nb_rows)==max(nb_rows) #We must have the same nb of elem for each key

row_lst = []
columns = dict_lst.keys()

for i in range(nb_rows[0]):
    row_values = [lst[i] for lst in values_lst]
    row_dict = {column: value for column, value in zip(columns, row_values)}
    row = Row(**row_dict)
    row_lst.append(row)

df = sqlContext.createDataFrame(row_lst)

另一答案

试试这个：

dict_lst = [{'letters': 'a', 'numbers': 10}, 
            {'letters': 'b', 'numbers': 20}, 
            {'letters': 'c', 'numbers': 30}]
df_dict = sc.parallelize(dict_lst).toDF()  # Result as expected

输出：

>>> df_dict.show()
+-------+-------+
|letters|numbers|
+-------+-------+
|      a|     10|
|      b|     20|
|      c|     30|
+-------+-------+

另一答案

使用上面的pault's答案，我在我的数据帧上强加了一个特定的模式，如下所示：

import pyspark
from pyspark.sql import SparkSession, functions

spark = SparkSession.builder.appName('dictToDF').getOrCreate()

获取数据：

dict_lst = {'letters': ['a', 'b', 'c'],'numbers': [10, 20, 30]}
data = dict_lst.values()

创建架构：

from pyspark.sql.types import *
myschema= StructType([ StructField("letters", StringType(), True)
                      ,StructField("numbers", IntegerType(), True)
                         ])

从字典创建df - 使用模式：

df=spark.createDataFrame(zip(*data), schema = myschema)
df.show()
+-------+-------+
|letters|numbers|
+-------+-------+
|      a|     10|
|      b|     20|
|      c|     30|
+-------+-------+

show df schema：

df.printSchema()

root
 |-- letters: string (nullable = true)
 |-- numbers: integer (nullable = true)

另一答案

您还可以使用Python List快速构建DataFrame原型。这个想法来自Databricks的教程。

df = spark.createDataFrame(
    [(1, "a"), 
     (1, "a"), 
     (1, "b")],
    ("id", "value"))
df.show()
+---+-----+
| id|value|
+---+-----+
|  1|    a|
|  1|    a|
|  1|    b|
+---+-----+

另一答案

最有效的方法是使用熊猫

import pandas as pd

spark.createDataFrame(pd.DataFrame(dict_lst))

以上是关于来自Python Dictionary的PySpark Dataframe没有Pandas的主要内容，如果未能解决你的问题，请参考以下文章

来自 Python 嵌套字典的 Pandas Dataframe

Python 字典(Dictionary) update()方法

python 字典 dictionary

Python学习：字典(dictionary)

python 字典(dictionary)

Python 字典(Dictionary)