具有列或行最大限制的 Pyspark 数据框
Posted
技术标签:
【中文标题】具有列或行最大限制的 Pyspark 数据框【英文标题】:Pyspark dataframe withcolumn or line max limit 【发布时间】:2019-03-19 06:27:43 【问题描述】:我有一个在 databricks 中创建的 pyspark 笔记本。我有一个数据框,我需要动态添加列,目前列数为 186。当我到达长度为 10000 的 python 行时,我看不到 None、Lit 等的颜色编码和我的笔记本行大小达到 10000 后单元格无法识别 withcolumn 声明。
python 中的行有大小限制吗?如果是这样,有没有更好的方法可以使用列表将这么多列添加到数据框中?
谢谢,
尤瓦
【问题讨论】:
【参考方案1】:是的,选择否有限制。数据块中数据框中的列,您可以使用列表选择所有列。像这样-
df = prv_df.withColumn(******something*********)
cols = ['column_1'
,'column_2'
,
,
,
,'column_n']
new_df = df.select(cols)
我认为它解决了你的问题。
【讨论】:
以上是关于具有列或行最大限制的 Pyspark 数据框的主要内容,如果未能解决你的问题,请参考以下文章