AWS Redshift：如何存储大小大于 100K 的文本字段

Posted 2023-03-30

技术标签:

【中文标题】AWS Redshift：如何存储大小大于 100K 的文本字段【英文标题】：AWS Redshift: How to store text field with size greater than 100K 【发布时间】：2019-01-03 03:33:00 【问题描述】：

我在镶木地板文件中有一个最大长度为141598 的文本字段。我正在将镶木地板文件加载到 redshift 并在加载时出错，因为 varchar 可以存储的最大值是 65535。我可以使用任何其他数据类型或其他替代方法吗？

加载时出错：

S3 Query Exception (Fetch). Task failed due to an internal error. The length of the data column friends is longer than the length defined in the table. Table: 65535, Data: 141598

【问题讨论】：

不，这是最大值。 【参考方案1】：

不，VARCHAR data type 的最大长度为 65535 字节，这是 Redshift 能够存储的最长数据类型。请注意，长度以字节为单位，而不是字符，因此实际存储的字符数取决于它们的字节长度。

如果数据已经采用 parquet 格式，那么您可能根本不需要将此数据加载到 Redshift 表中，而是可以在其上创建 Spectrum external table。外部表定义将仅支持 65535 的 VARCHAR 定义，与普通表相同，并且对该列的任何查询都会静默截断超出该长度的其他字符 - 但是原始数据将保留在 parquet 文件中，并且可能通过以下方式访问如果需要，其他方式。

【讨论】：

以上是关于AWS Redshift：如何存储大小大于 100K 的文本字段的主要内容，如果未能解决你的问题，请参考以下文章

如何列出 AWS RedShift 中的所有存储过程

如何使用自动化或命令行工具管理 AWS Redshift 中的存储过程？

由于运行查询，Redshift 集群更大

为啥 Redshift 和 S3 之间的 AWS 文件大小不同？

如何使用 AWS RedShift Spectrum 为 S3 存储建模以进行查询

AWS - Redshift 查询编辑器 v2 - 导出到 csv 超过 100 行