Databricks spark数据框按每列创建数据框

Posted

技术标签:

【中文标题】Databricks spark数据框按每列创建数据框【英文标题】:Databricks spark dataframe create dataframe by each column 【发布时间】:2021-11-02 08:27:40 【问题描述】:

在 pandas 中,我可以做这样的事情。

data = "col1" : [np.random.randint(10) for x in range(1,10)],
    "col2" : [np.random.randint(100) for x in range(1,10)]
mypd = pd.DataFrame(data)
mypd

并给出两列

有没有类似的方法在 pyspark 中创建 spark 数据框?

【问题讨论】:

这能回答你的问题吗? Manually create a pyspark dataframe 【参考方案1】:

史蒂文分享的答案很精彩

另外,如果您对 Pandas 感到满意

您可以直接将您的 pandas 数据框提供给函数createDataFrame

火花 >= 2.x

data = 
    "col1": [np.random.randint(10) for x in range(1, 10)],
    "col2": [np.random.randint(100) for x in range(1, 10)],

mypd = pd.DataFrame(data)

sparkDF = sql.createDataFrame(mypd)

sparkDF.show()

+----+----+
|col1|col2|
+----+----+
|   6|   4|
|   1|  39|
|   7|   4|
|   7|  95|
|   6|   3|
|   7|  28|
|   2|  26|
|   0|   4|
|   4|  32|
+----+----+

【讨论】:

感谢史蒂文的信息,相应地更新了答案 所以必须先通过pandas? 如果你对 pandas 比较满意,否则你可以使用 Steven 分享的链接直接创建绕过 pandas 的 Spark DataFrame

以上是关于Databricks spark数据框按每列创建数据框的主要内容,如果未能解决你的问题,请参考以下文章

Databricks 是不是为给定的集群和数据集提供推荐的 spark 参数?

将运行时 7.3LTS(Spark3.0.1) 升级到 9.1LTS(Spark3.1.2) 后创建 PySpark 数据帧 Databricks 时,json 文件中的重复列会引发错误

在 Azure Databricks 的集群 Spark Config 中设置数据湖连接

Databricks (Spark):.egg 依赖项未自动安装?

Databricks 上的 Spark - 缓存 Hive 表

spark sql如何在databricks中创建表