BigQuery 中的数据中存在轻微的拼写错误

Posted

技术标签:

【中文标题】BigQuery 中的数据中存在轻微的拼写错误【英文标题】:Insignificant typos in data in BigQuery 【发布时间】:2021-05-27 12:35:54 【问题描述】:

我有一些大的 json 文件,每个对象都在一个新行上。像这样的:

"_id": "6047a8d", "type": ["Type1"], "service": ["5ae9595a"], "options": ["name": "a", "value": false, "name": "b", "value": false], "NameType": ["c"], "FakeNames": ["d", "e"], "text": "texts", "date": "2021-03-09T16:56:49.15Z"
"_id": "6047a", "type": ["Type1"], "service": ["5ae9595a9"], "options": ["name": "abc", "value": false, "title": "def", "value": false], "Nametype": ["xy"], "FakeNames": [], "text": "xyz", "date": "2021-03-09T17:02:20.976Z"

这是我在 Google Cloud 中拥有的数据,我根据这些数据在 BigQuery 中创建了一个表。但是,有时[ 括号会随机丢失,或者我有"name": 2021 而不是"name": 2021,它是一个整数,因此与架构不协调。我已经有一个 Python 代码可以清理原始数据并消除 BigQuery 无法摄取的所有内容,但我发现在这些“错误”很少发生时检查每个丢失的括号或将一些整数转换为字符串既困难又昂贵( 10个这么大的文件的文件夹里只发现两个小错误)。

例如,我如何设置不良记录的最大数量以及这些记录会发生什么?

【问题讨论】:

【参考方案1】:

如果您在 GUI 中从 csv 文件创建表格,您可以选择 Number of errors allowed

【讨论】:

谢谢!我知道这一点,但你知道json有没有解决方案?

以上是关于BigQuery 中的数据中存在轻微的拼写错误的主要内容,如果未能解决你的问题,请参考以下文章

如何避免 BigQuery 中的 Power BI 增量刷新重复查询?

何时在 Bi​​gQuery 中使用分区

从 BigQuery 数据查询中查询名为 chartio 的 BI 工具时,最大数据大小是多少?

Google play 到 BigQuery 转移作业中的错误

从BigQuery数据查询中查询名为chartio的BI工具时的最大数据大小是多少?

错误:“表或数据量大于 BI 引擎此时支持的量”