如何将压缩的 TSV 文件读取到 Databricks 上的数据框?

Posted

技术标签:

【中文标题】如何将压缩的 TSV 文件读取到 Databricks 上的数据框?【英文标题】:How do I read a zipped TSV file to dataframe on Databricks? 【发布时间】:2020-05-18 17:24:16 【问题描述】:

我正在尝试使用 Databricks 从 SFTP 上的压缩 TSV 文件中读取数据,但是遇到了困难(试图使用 pysftp 和 SQLContext 来读取 TSV)。有没有人有一些示例代码或资源/视频的链接来解释如何实现这一点?

谢谢

【问题讨论】:

【参考方案1】:

最后想通了:

with ftp.open("TestFile.zip") as f:
    dfTest = pd.read_csv(f, compression='zip', sep='\t')

【讨论】:

以上是关于如何将压缩的 TSV 文件读取到 Databricks 上的数据框?的主要内容,如果未能解决你的问题,请参考以下文章

如何在python中读取一个大的tsv文件并将其转换为csv

AWS Athena数据集的注意事项? TSV

python读取具有行号的多列tsv文件

如何将 CSV/TSV 文件从 Pig 加载/导出到 Pandas?

如何有效地将大型 .tsv 文件上传到 pyspark 中具有拆分列的 Hive 表?

如何导入 .tsv 文件