火花小兽人条纹
Posted
技术标签:
【中文标题】火花小兽人条纹【英文标题】:Spark Small ORC Stripes 【发布时间】:2018-06-23 08:42:56 【问题描述】:我们使用 Spark 来扁平化点击流数据,然后以 ORC+zlib 格式将其写入 S3,我尝试在 Spark 中更改许多设置,但生成的 ORC 文件的条带大小仍然非常小(
到目前为止我尝试减小条带大小的方法,
以前每个文件大小为 20MB,使用合并我现在创建大小为 250-300MB 的文件,但每个文件仍有 200 个条带,即每个条带
通过将 hive.exec.orc.default.stripe.size 设置为 67108864 尝试使用 hivecontext 而不是 sparkcontext,但 spark 不支持这些参数。
那么,关于如何增加正在创建的 ORC 文件的条带大小的任何想法?因为小条带的问题是,当我们使用 Presto 查询这些 ORC 文件并且条带大小小于 8MB 时,Presto 将读取整个数据文件而不是查询中的选定字段。
Presto Stripe 问题相关线程:https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA
【问题讨论】:
【参考方案1】:我在 HDP 社区平台上发布了同样的问题,我得到了以下回复,
“与HIVE-13232有关(在Hive 1.3.0、2.0.1、2.1.0中修复),但所有Apache Spark仍然使用Hive 1.2.1库。
你能试试 HDP 2.6.3+(2.6.4 是最新的)。 HDP Spark 2.2 具有该固定配置单元库。”
【讨论】:
更多细节可以在这里找到community.hortonworks.com/questions/159893/…以上是关于火花小兽人条纹的主要内容,如果未能解决你的问题,请参考以下文章