如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件

Posted

技术标签:

【中文标题】如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件【英文标题】:How to concatenate multiple csv file into one csv file having single header with gsutil 【发布时间】:2021-11-15 16:58:44 【问题描述】:

我尝试使用 gsutil cat 和 gsutil compose 连接多个 csv 文件,但问题是在输出文件中,标题重复导致数据差异。

【问题讨论】:

这能回答你的问题吗? How can I append data to a file on google cloud storage gsutil 不处理文件或对象中的数据。您将需要使用不同的工具来连接 CSV 格式的文件。对于 Python 程序来说,这是一项非常简单的任务。 如何避免所有标题行?如果例如使用bq extract ... gs://table-name*.csv.gz 生成多个gz 文件,您可以指定--noprint_header 选项。 【参考方案1】:

你不能直接用 gsutil 来做。但我写了一个article,我在其中使用 BigQuery 来(尝试)解决这个问题

【讨论】:

以上是关于如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件的主要内容,如果未能解决你的问题,请参考以下文章

如何使用gsutil删除gcs中的多个文件,除了1

将多个 csv 文件连接成具有相同标题的单个 csv - Python

Google BigQuery:如何使用 gsutil 删除或覆盖表?

形成一个循环将多个 .csv 文件连接成一个 .csv 文件

使用 gsutil 从 CSV 下载所有行

将多个csv文件导入pandas并连接成一个DataFrame