火花小兽人条纹

Posted

技术标签:

【中文标题】火花小兽人条纹【英文标题】:Spark Small ORC Stripes 【发布时间】:2018-06-23 08:42:56 【问题描述】:

我们使用 Spark 来扁平化点击流数据,然后以 ORC+zlib 格式将其写入 S3,我尝试在 Spark 中更改许多设置,但生成的 ORC 文件的条带大小仍然非常小(

到目前为止我尝试减小条带大小的方法,

以前每个文件大小为 20MB,使用合并我现在创建大小为 250-300MB 的文件,但每个文件仍有 200 个条带,即每个条带

通过将 hive.exec.orc.default.stripe.size 设置为 67108864 尝试使用 hivecontext 而不是 sparkcontext,但 spark 不支持这些参数。

那么,关于如何增加正在创建的 ORC 文件的条带大小的任何想法?因为小条带的问题是,当我们使用 Presto 查询这些 ORC 文件并且条带大小小于 8MB 时,Presto 将读取整个数据文件而不是查询中的选定字段。

Presto Stripe 问题相关线程:https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

【问题讨论】:

【参考方案1】:

我在 HDP 社区平台上发布了同样的问题,我得到了以下回复,

“与HIVE-13232有关(在Hive 1.3.0、2.0.1、2.1.0中修复),但所有Apache Spark仍然使用Hive 1.2.1库。

你能试试 HDP 2.6.3+(2.6.4 是最新的)。 HDP Spark 2.2 具有该固定配置单元库。”

【讨论】:

更多细节可以在这里找到community.hortonworks.com/questions/159893/…

以上是关于火花小兽人条纹的主要内容,如果未能解决你的问题,请参考以下文章

艾尔登法环雪山地面出现条纹阴影

电影《魔兽》2天5.75亿,你看了吗,《魔兽2》还会远吗?

火花流功能火花提交时间通过异常

蜂巢上的火花 - 为啥不“选择*”产生火花应用程序/执行程序?

在火花数组列中爆炸到多列火花sql

火花中止火花作业中打开的文件太多