如何在不创建架构的情况下将 CSV 文件加载到 BigQuery
Posted
技术标签:
【中文标题】如何在不创建架构的情况下将 CSV 文件加载到 BigQuery【英文标题】:How to load CSV files into BigQuery without creating schema 【发布时间】:2017-07-05 12:59:14 【问题描述】:我想将 CSV 文件加载到大查询表中,CSV 文件正在实时创建这种类型的文件修复模式很困难。任何人都可以帮助如何使用 python 将 csv 文件加载到大查询中。
我有一个解决方案运行 bq 命令行将 csv 文件加载到 bq 表中。 请帮助我如何使用 python 执行 bq 命令工具。 我想要python中的解决方案如何解决这个问题 在此先感谢
【问题讨论】:
您的意思是“修复架构很困难”? csv 文件中的数据会随着时间的推移而改变架构吗? @Will yes data 是 csv 文件随时间的变化 【参考方案1】:如果您在 Google Cloud 中使用 bq 方法,请尝试:
bq \
--project_id your_project_id_from_gcp \
--location=US \
load \
--autodetect \
--ignore_unknown_values \
--source_format=NEWLINE_DELIMITED_JSON \
'table_name.examplev1' \
/Users/.../file.json
此示例使用 json 文件,bq 也适用于 csv 和其他格式,您只需更改 'source_format' 和您的 'file'。
【讨论】:
【参考方案2】:您是否尝试过架构自动检测? https://cloud.google.com/bigquery/docs/schema-detect
【讨论】:
以上是关于如何在不创建架构的情况下将 CSV 文件加载到 BigQuery的主要内容,如果未能解决你的问题,请参考以下文章
Python 3:如何在不保存在磁盘上的情况下将 pandas 数据帧作为 csv 流上传?
如何在不先加载到 RAM 的情况下将文件加载到 blob 中?
如何在不将 csv 保存到磁盘的情况下将 csv 格式的数据从内存发送到数据库?
如何在不删除源文件的情况下将数据从 HDFS 加载到配置单元?