如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件
Posted
技术标签:
【中文标题】如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件【英文标题】:How to concatenate multiple csv file into one csv file having single header with gsutil 【发布时间】:2021-11-15 16:58:44 【问题描述】:我尝试使用 gsutil cat 和 gsutil compose 连接多个 csv 文件,但问题是在输出文件中,标题重复导致数据差异。
【问题讨论】:
这能回答你的问题吗? How can I append data to a file on google cloud storage gsutil 不处理文件或对象中的数据。您将需要使用不同的工具来连接 CSV 格式的文件。对于 Python 程序来说,这是一项非常简单的任务。 如何避免所有标题行?如果例如使用bq extract ... gs://table-name*.csv.gz
生成多个gz 文件,您可以指定--noprint_header
选项。
【参考方案1】:
你不能直接用 gsutil 来做。但我写了一个article,我在其中使用 BigQuery 来(尝试)解决这个问题
【讨论】:
以上是关于如何使用 gsutil 将多个 csv 文件连接成一个具有单个标题的 csv 文件的主要内容,如果未能解决你的问题,请参考以下文章
将多个 csv 文件连接成具有相同标题的单个 csv - Python
Google BigQuery:如何使用 gsutil 删除或覆盖表?