洞察 Redshift Spectrum 查询错误

Posted

技术标签:

【中文标题】洞察 Redshift Spectrum 查询错误【英文标题】:Insight into Redshift Spectrum query error 【发布时间】:2021-12-08 04:47:41 【问题描述】:

我正在尝试使用 Redshift Spectrum 来查询 s3 中的数据。数据已被 Glue 抓取,我已使用 DataBrew 对文件运行成功的数据分析作业(因此我知道 Glue 已正确读取它),并且在创建架构后我可以在查询编辑器中看到正确的表。但是当我尝试运行简单的查询时,我得到了两个错误之一:如果它是一个小文件,我得到:“错误:解析的清单不是有效的 JSON 对象......”;如果它是一个大文件,我会得到:“错误:清单太大细节:...”。我怀疑它正在寻找或相信查询中的文件是清单,但我不知道为什么或如何解决它。我已尽可能严格地遵循文档,并通过屏幕共享复制了该过程,并与同样被难住的 AWS 技术支持代表分享。

【问题讨论】:

【参考方案1】:

发现问题:发生错误是因为我在同一个 s3 文件夹中有不止一种类型的文件(即不同布局的文件)。可能有其他方法可以解决此问题,但为给定的 s3 文件夹隔离一种类型的文件解决了问题,并允许 Redshift Spectrum 成功地对我的文件执行查询。

【讨论】:

以上是关于洞察 Redshift Spectrum 查询错误的主要内容,如果未能解决你的问题,请参考以下文章

Redshift Spectrum 和 Hive Metastore - 模棱两可的错误

Redshift Spectrum 在创建嵌套数据时出现语法错误

Redshift Spectrum中表名有连字符时如何查询表?

Redshift Spectrum 为查询扫描的数据大小

AWS Spectrum 扫描错误压缩文件意外结束

Redshift Spectrum 性能对比 Athena