从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改
Posted
技术标签:
【中文标题】从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改【英文标题】:Row delimiter change while writing a tsv file in adls gen 1 from databrick 【发布时间】:2020-07-25 15:53:33 【问题描述】:我想将 tsv 文件保存到 adls gen1。使用以下命令保存数据,但将行分隔符写为“\n”(LF)我想写一个行分隔符“\r\n”
df.coalesce(1).write.mode("overwrite").format("csv").options(delimiter="\t",header="true",nullValue= None,lineSep ='\r\n').save(gen1temp)
我有 400 多列和 2M 行,文件大小为 6GB。 请帮助优化 soln。
【问题讨论】:
【参考方案1】:支持 CSV 文件的lineSep
选项仅存在于Spark 3.0 中,而在早期版本中不存在,例如2.4,因此它被忽略了。
最初我考虑过以下解决方法 - 将 \r
附加到最后一列:
from pyspark.sql.functions import concat, col, lit
data = spark.range(1, 100).withColumn("abc", col("id")).withColumn("def", col("id"))
cols = map(lambda cn: col(cn), data.schema.fieldNames())
cols[-1] = concat(cols[-1].cast("string"), lit("\r"))
data.select(cols).write.csv("1.csv")
但不幸的是,它不起作用 - 看起来它在将数据写入 CSV 时正在剥离结束空格...
【讨论】:
我面临同样的问题,其中一个要求...使用 spark 2.4,但不知道如何得到这个东西 \r\n 最后以上是关于从 databrick 在 adls gen 1 中写入 tsv 文件时行分隔符更改的主要内容,如果未能解决你的问题,请参考以下文章
DataBricks - 将更改保存回 DataLake (ADLS Gen2)
使用 pyspark databricks 在 adls gen 2 位置查找重复的文件名
如何使用 Azure databricks 通过 ADLS gen 2 中的多个工作表读取和写入 excel 数据