海量数据处理面试题六大套路

Posted 2020-08-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了海量数据处理面试题六大套路相关的知识，希望对你有一定的参考价值。

看了那么多海量数据处理的文章，只有这篇对其套路进行了总结。

原文地址：https://www.cnblogs.com/ranjiewen/articles/6883723.html

内容不错，就是排版差一点。于是转载过来，略有修改。

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。
何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢？

针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。

针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

分而治之/hash映射 + hash统计 + 堆/快速/归并排序

分而治之/hash映射：针对数据太大，内存受限，只能把大文件化成(取模映射)小文件。
hash_map统计：当大文件转化了小文件，那么我们便可以采用常规的hash_map(key，value)来进行频率统计。
堆/快速排序：统计完了之后，便进行排序(可采取堆排序)，得到次数最多的key。

多层划分

多层划分，其实本质上还是分而治之的思想，重在“分”的技巧上！

适用范围：第k大，中位数，不重复或重复的数字。
基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。

Bloom filter/Bitmap

Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集。

基本原理：当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位阵列（Bit array）中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检索元素一定不在；如果都是1，则被检索元素很可能在。

Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。
Bitmap

Bitmap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来表示某个元素是否存在，因此在存储空间方面，可以大大节省。

Bitmap排序方法
第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。

Bloom filter可以看做是对Bitmap的扩展。

Trie树/数据库/倒排索引

Trie树
适用范围：数据量大，重复多，但是数据种类小可以放入内存。
基本原理及要点：实现方式，节点孩子的表示方式。
扩展：压缩实现。
数据库索引
适用范围：大数据量的增删改查。
基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。
倒排索引(Inverted index)
适用范围：搜索引擎，关键字查询。
基本原理及要点：一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

外排序

适用范围：大数据的排序，去重。
基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树。

Map Reduce

Map Reduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。

适用范围：数据量大，但是数据种类小可以放入内存。
基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

以上是关于海量数据处理面试题六大套路的主要内容，如果未能解决你的问题，请参考以下文章