BigQuery - 加载序列文件

Posted

技术标签:

【中文标题】BigQuery - 加载序列文件【英文标题】:BigQuery - Load Sequence File 【发布时间】:2016-10-21 23:33:21 【问题描述】:

我想将文本文件加载到 Big Query 并保持文本文件的顺序。

我的文本文件不包含任何可以帮助我稍后根据此索引对文件进行排序的索引参数..

所以如果文本文件看起来像这样 - 啊啊啊 bbb 抄送

我会将它加载到 Big Query Table 并在运行时获取订单 从表中选择 * 结果: 啊啊啊 bbb 抄送

我有需要按顺序解析的文本文件。 这就是维持秩序的必要条件。

【问题讨论】:

【参考方案1】:

BigQuery 本身不保证检索订单,除非您有要订购的列!所以你必须拥有它(订单栏)! 我可以推荐的唯一方法是在某些工具(例如 Excel)中打开您的文件,然后添加另一列,其中包含反映所需顺序的值,然后在加载到 BigQuery 后将其保存回文件。 如果您的文件太大并且您无法使用 excel 打开它 - 您应该使用一些脚本语言来执行相同的操作,但要以编程方式进行。

【讨论】:

打开一个文件这不是一个解决方案,因为我有大量文件并且我需要扩展解决方案。谢谢!反正 明白了。因此,您应该使用您选择的语言/脚本编写一些代码,以将订单列添加到您的文件中。 我知道,但这不是一个规模化的解决方案。每天我都会收到数百万个文件。如果对于每个文件,我都需要打开它并添加订单列..这将是一个复杂的系统,以便进行缩放。 我怀疑你可以在这里纯粹在 BigQuery 中做任何事情。您的文件中必须有一些用于识别订单的内容!我感觉到你的痛苦。希望 SO 上的其他人会为您提供一些东西。

以上是关于BigQuery - 加载序列文件的主要内容,如果未能解决你的问题,请参考以下文章

BigQuery 加载较大的 CSV 文件失败

BigQuery 加载作业失败 - 无法访问 GCS 文件

如何从具有 DATE 列的 BigQuery 表中导出 AVRO 文件并将其再次加载到 BigQuery

BigQuery 加载本地文件不起作用,位置有问题

使用 php 将本地文件加载到 bigquery 中

推断 BigQuery 表加载的 avro 架构