Hive如何处理大量小文件

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive如何处理大量小文件相关的知识,希望对你有一定的参考价值。

参考技术A 1.动态分区插入数据的时候,会产生大量的小文件,从而导致map数量的暴增
2.数据源本身就包含有大量的小文件
3.reduce个数越多,生成的小文件也越多

1 从HIVE角度来看的话呢,小文件越多,map的个数也会越多,每一个map都会开启一个JVM虚拟机,每个虚拟机都要创建任务,执行任务,这些流程都会造成大量的资源浪费,严重影响性能
2 在HDFS中,每个小文件约占150byte,如果小文件过多则会占用大量的内存。这样namenode内存容量严重制约了集群的发展

4.1 使用Hadoop achieve把小文件进行归档
4.2 重建表,建表时减少reduce的数量
4.3 通过参数调节,设置map/reduce的数量
4.3.1设置map输入合并小文件的相关参数:

4.3.2 设置map输出和reduce输出进行合并的相关参数:

如何处理来自 REST 服务的大量数据

【中文标题】如何处理来自 REST 服务的大量数据【英文标题】:How to handle huge data from a REST service 【发布时间】:2014-03-03 18:09:35 【问题描述】:

我们正在使用返回大量数据的 REST 服务。 在生产中,服务器硬件可以处理它。 我需要通过在本地机器上获取数据来测试 REST 服务, 它无法处理大量数据。 我的本地机器是 4G i5。 每次我点击服务时,我都会出现内存不足的异常。

response.getStatus() 返回 200 状态。 但是在使用输入流阅读器收集数据时,我遇到了内存不足的异常。

BufferedReader br = new BufferedReader(new
InputStreamReader(newByteArrayInputStream(response.getEntity().getBytes())));

有没有其他方法来收集数据而不会遇到内存异常?

我尝试将我的 VM 大小推到 2G,但它仍然不起作用。

【问题讨论】:

只返回部分响应怎么样? 写入磁盘或/dev/null @Petey 我需要字节数组来写入文件,但是在获取字节时它失败了 'response.getEntity().getBytes()' @LutzHorn,您的意思是更改 Web 服务以部分返回,或者在接收响应时我们可以将其拆分为部分? 考虑向您的 REST 服务添加“测试模式”,将响应数据写入文件或仅返回一小部分数据。 【参考方案1】:

如果服务支持,在整个响应内容负载范围内使用requesting chunks的HTTP标准方法。

另一种方法(同样,假设 API 支持它)是pagination。

【讨论】:

这是我可以推荐的好方法。谢谢布赖恩!!【参考方案2】:

您可以在 REST 服务配置中实施阈值设置,以限制返回的数据量。 在生产中,阈值要么不设置,要么设置为较大的值。 在您的测试环境中,您可以将阈值设置为一个小的、可管理的值。

【讨论】:

以上是关于Hive如何处理大量小文件的主要内容,如果未能解决你的问题,请参考以下文章

你如何处理大量的小文件?

Hive:如何处理数据文件中有分隔符的文件?

微信小程序json数据如何处理?

微信小程序-ios系统-下拉上拉出现白色,如何处理呢?

如何处理构建“dist”文件夹

发现PDF Transformer+转换的图像字体小了如何处理