将 Blob 数据类型存储在 Hive 表中的最佳方式是字符串还是二进制?

Posted

技术标签:

【中文标题】将 Blob 数据类型存储在 Hive 表中的最佳方式是字符串还是二进制?【英文标题】:What is the best way to store Blob data type in a Hive table, as a string or Binary? 【发布时间】:2018-09-26 09:48:01 【问题描述】:

在 Hive 表中存储 Blob 数据类型的最佳方式是字符串还是二进制?

我们已经使用 Sqoop 将 RDBMS 表存档到 Hive 中。它有一个 BLOB 类型的列,所以在 Hive 中我们保存在二进制中。但我们无法将二进制内容读入 PDF 或任何文档。那么我们是否有可能将 Hive 二进制数据作为文档读取?

将 BLOB 数据存储到 Hive Binary 是值得推荐的方法,或者我们还有其他方法吗?

有没有像 HBase、Cassandra 这样的大数据组件会支持 BLOB 类型?

【问题讨论】:

【参考方案1】:

最好使用 HIVE 二进制文件将 blob 数据存储到 HIVE 中。您可以点击以下链接Import blob from oracle to HIVE

您还可以使用 Cassandra 或并行 nosql 来存储 blob 数据。同样,这取决于您的用例是选择 HIVE 还是 nosql 数据库。

【讨论】:

以上是关于将 Blob 数据类型存储在 Hive 表中的最佳方式是字符串还是二进制?的主要内容,如果未能解决你的问题,请参考以下文章

更新 hive 表中的增量记录

Azure Blob 存储:防止 Blob 复制到另一个存储帐户的最佳方法?

如何将数据(数据类型 BLOB)复制到另一个表中?

将 .txt 文件中的数据加载到 Hive 中存储为 ORC 的表中

HANA:数据类型 BLOB 的数据库列中的未知字符

oracle数据库如何查询一张表中BLOB字段中的内容