从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改

Posted

技术标签:

【中文标题】从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改【英文标题】:Row delimiter change while writing a tsv file in adls gen 1 from databrick 【发布时间】:2020-07-25 15:53:33 【问题描述】:

我想将 tsv 文件保存到 adls gen1。使用以下命令保存数据,但将行分隔符写为“\n”(LF)我想写一个行分隔符“\r\n”

df.coalesce(1).write.mode("overwrite").format("csv").options(delimiter="\t",header="true",nullValue= None,lineSep ='\r\n').save(gen1temp)

我有 400 多列和 2M 行,文件大小为 6GB。 请帮助优化 soln。

【问题讨论】:

【参考方案1】:

支持 CSV 文件的lineSep 选项仅存在于Spark 3.0 中,而在早期版本中不存在,例如2.4,因此它被忽略了。

最初我考虑过以下解决方法 - 将 \r 附加到最后一列:

from pyspark.sql.functions import concat, col, lit

data = spark.range(1, 100).withColumn("abc", col("id")).withColumn("def", col("id"))
cols = map(lambda cn: col(cn), data.schema.fieldNames())
cols[-1] = concat(cols[-1].cast("string"), lit("\r"))
data.select(cols).write.csv("1.csv")

但不幸的是,它不起作用 - 看起来它在将数据写入 CSV 时正在剥离结束空格...

【讨论】:

我面临同样的问题,其中一个要求...使用 spark 2.4,但不知道如何得到这个东西 \r\n 最后

以上是关于从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改的主要内容,如果未能解决你的问题,请参考以下文章

无法在Databricks中为ADLS Gen2创建安装点

DataBricks - 将更改保存回 DataLake (ADLS Gen2)

使用 pyspark databricks 在 adls gen 2 位置查找重复的文件名

如何使用 Azure databricks 通过 ADLS gen 2 中的多个工作表读取和写入 excel 数据

在 ADLS2 中合并通过 DataBricks 准备的 CSV 文件

Databricks + ADF + ADLS2 + Hive = Azure Synapse