具有列或行最大限制的 Pyspark 数据框

Posted

技术标签:

【中文标题】具有列或行最大限制的 Pyspark 数据框【英文标题】:Pyspark dataframe withcolumn or line max limit 【发布时间】:2019-03-19 06:27:43 【问题描述】:

我有一个在 databricks 中创建的 pyspark 笔记本。我有一个数据框,我需要动态添加列,目前列数为 186。当我到达长度为 10000 的 python 行时,我看不到 None、Lit 等的颜色编码和我的笔记本行大小达到 10000 后单元格无法识别 withcolumn 声明。

python 中的行有大小限制吗?如果是这样,有没有更好的方法可以使用列表将这么多列添加到数据框中?

谢谢,

尤瓦

【问题讨论】:

【参考方案1】:

是的,选择否有限制。数据块中数据框中的列,您可以使用列表选择所有列。像这样-

df = prv_df.withColumn(******something*********)

cols = ['column_1'
       ,'column_2'
       ,
       ,
       ,
       ,'column_n']

new_df = df.select(cols)

我认为它解决了你的问题。

【讨论】:

以上是关于具有列或行最大限制的 Pyspark 数据框的主要内容,如果未能解决你的问题,请参考以下文章

检测图像像素的列或行是不是为线

数据集市建模事实表:列或行中的指标,其中一列称为指标

如何在限制行数的同时拆分 Pyspark 数据帧?

从具有 DenseVector 行的 pyspark 数据帧中获取行的最大值

text Bg图像列或行移动插件

如何在 mdx 查询中更改列或行的名称