使用 pyspark 更改分隔符并将其保存为 HDFS 中的文本文件

Posted

技术标签:

【中文标题】使用 pyspark 更改分隔符并将其保存为 HDFS 中的文本文件【英文标题】:Change Delimiter using pyspark and save it as textfile in HDFS 【发布时间】:2017-06-26 15:43:58 【问题描述】:

我在 HDFS 中有一个输入数据文件。我将阅读该文件并执行一些验证,如下所示。执行验证后,我得到如下结果。我想使用 pyspark 将逗号的分隔符更改为 '\t' 并将其存储在 HDFS 中。谁能帮我这个。 (请不要 csv ans)。提前致谢。

Validation Code:
dc = data_f.filter("age > 25").filter(data_f.mar == '"married"').groupBy("job","edu").avg("bal","age").sort(data_f.job.desc(),"edu").rdd.map(list).collect()

Result:
  [[u'"unknown"', u'"primary"', 1515.974358974359, 48.61538461538461], 
  [u'"unknown"', u'"secondary"', 1314.2045454545455, 47.84090909090909], 
  [u'"unknown"', u'"tertiary"', 2328.64, 51.84],
  [u'"unknown"', u'"unknown"', 1977.1157894736841, 51.694736842105264], 
  [u'"unemployed"', u'"primary"', 1685.6097560975609, 44.957317073170735], 
  [u'"unemployed"', u'"secondary"', 1472.3518072289157, 43.8433734939759], 
  [u'"unemployed"', u'"tertiary"', 1865.968992248062, 41.031007751937985], 
  [u'"unemployed"', u'"unknown"', 859.1875, 45.375], 
  [u'"technician"', u'"primary"', 1512.704, 47.912]]

【问题讨论】:

【参考方案1】:

如果你需要避免

.csv.write 

方法,你可以在rdd上使用这个sn-p

def concatenate_row(row):
    concatenated_row = ""
    for col in row:
        concatenated_row += str(col) + "\t"
    return concatenated_row

result = rdd.map(lambda row : concatenate_row(row))

然后调用

saveAsTextFile

方法

【讨论】:

以上是关于使用 pyspark 更改分隔符并将其保存为 HDFS 中的文本文件的主要内容,如果未能解决你的问题,请参考以下文章

更改 DataFrame 中的列数据类型并将其传递到 UDF - PySpark

PySpark 处理流数据并将处理后的数据保存到文件

使用python在csv中更改分隔符

拆分具有多个分隔符的字符串并将其保存到向量中

如何修改查询集并将其保存为新对象?

Pyspark:spark-submit 不像 CLI 那样工作