Databricks spark数据框按每列创建数据框
Posted
技术标签:
【中文标题】Databricks spark数据框按每列创建数据框【英文标题】:Databricks spark dataframe create dataframe by each column 【发布时间】:2021-11-02 08:27:40 【问题描述】:在 pandas 中,我可以做这样的事情。
data = "col1" : [np.random.randint(10) for x in range(1,10)],
"col2" : [np.random.randint(100) for x in range(1,10)]
mypd = pd.DataFrame(data)
mypd
并给出两列
有没有类似的方法在 pyspark 中创建 spark 数据框?
【问题讨论】:
这能回答你的问题吗? Manually create a pyspark dataframe 【参考方案1】:史蒂文分享的答案很精彩
另外,如果您对 Pandas 感到满意
您可以直接将您的 pandas 数据框提供给函数createDataFrame
火花 >= 2.x
data =
"col1": [np.random.randint(10) for x in range(1, 10)],
"col2": [np.random.randint(100) for x in range(1, 10)],
mypd = pd.DataFrame(data)
sparkDF = sql.createDataFrame(mypd)
sparkDF.show()
+----+----+
|col1|col2|
+----+----+
| 6| 4|
| 1| 39|
| 7| 4|
| 7| 95|
| 6| 3|
| 7| 28|
| 2| 26|
| 0| 4|
| 4| 32|
+----+----+
【讨论】:
感谢史蒂文的信息,相应地更新了答案 所以必须先通过pandas? 如果你对 pandas 比较满意,否则你可以使用 Steven 分享的链接直接创建绕过 pandas 的 Spark DataFrame以上是关于Databricks spark数据框按每列创建数据框的主要内容,如果未能解决你的问题,请参考以下文章
Databricks 是不是为给定的集群和数据集提供推荐的 spark 参数?
将运行时 7.3LTS(Spark3.0.1) 升级到 9.1LTS(Spark3.1.2) 后创建 PySpark 数据帧 Databricks 时,json 文件中的重复列会引发错误
在 Azure Databricks 的集群 Spark Config 中设置数据湖连接
Databricks (Spark):.egg 依赖项未自动安装?