一看就懂的贪心算法

Posted @我好菜啊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一看就懂的贪心算法相关的知识,希望对你有一定的参考价值。

如何理解贪心算法

我们先看一个例子

假设有一个可以容纳100kg物品的背包,背包可以装各种物品,我们有以下五种豆子,每种豆子的重量和总价值各不相同。为了让背包中所装物品的总价值最大,我们如何选择在背包中装哪些豆子?每种豆子又应该装多少?

我们可以这样想,我们只需要计算出每种豆子的单价,按照价格由高到低依次来装豆子,先按单价最高的豆子装,装不满的话,再装价格相对较低的豆子,直到装满为止。

这个问题的解决思路就是用了贪心算法的思想,我们先来看以下贪心算法解决问题的步骤:

第一步:套用贪心算法的问题模型:针对一组数据,事先定义了限制值和期望值,希望从中选择几个数据,在满足限制的情况下,期望值最大。针对刚才的例子,限制值就是装载背包中的豆子不能超过100kg,期望值就是装在背包中的豆子的总价值。这组数据就是5种豆子,从中选出 一部分豆子,满足重量不超过100kg,并且总价值最大。

第二步:尝试用贪心算法来解决:每次选择对限制值同等贡献量的情况下,对期望值贡献最大的数据。针对刚才的例子,每次都从剩下的豆子里选择单价最高的,也就是重量相同的情况下,对价值贡献最大的豆子。

第三步:举例验证算法是否正确:在大部分情况下,举几个例子验证以下短发是否能得到最优解就可以了。

实际上,用贪心算法解决问题,并不能给出最优解。

再来看一个例子,在一个有权图中找一条从顶点S到顶点T的最短路径(路径中边的权值最小)。贪心算法的解决思路:每次都选择一条与当前顶点相连的权值最小的边,也就是对总路径长度贡献最小的边,直到找到顶点T。按照这种思路,我们求出的最短路径是S->A->E->T,路径长度是1+4+4 = 9。

但是,基于这种贪心算法,最终得到的路径并非最短路径,因为路径S->B->D->T更短,长度为6。贪心算法不能解决这个问题的主要原因是在贪心选择过程中前面的选择会影响后面的选择。如果第一步从顶点S到顶点A,那么接下来面对的顶点和边与第一步从顶点S到顶点B是完全不同的。因此,即便我们在第一步选择最优的走法,也有可能因为这一步的选择导致后面的每一步都很糟糕。

贪心算法的应用示例

1. 分糖果
我们有 m 个糖果和 n 个孩子。我们现在要把糖果分给这些孩子吃,但是糖果少,孩子(m<n),所以糖果只能分配给一部分孩子。
每个糖果的大小不等,这 m 个糖果的大小分别是 s1,s2,s3,……,sm。除此之外,每个 孩子对糖果大小的需求也是不一样的,只有糖果的大小大于等于孩子的对糖果大小的需求的 时候,孩子才得到满足。假设这 n 个孩子对糖果大小的需求分别是 g1,g2,g3,……, gn。
我的问题是,如何分配糖果,能尽可能满足最多数量的孩子?
我们可以把这个问题抽象成,从 n 个孩子中,抽取一部分孩子分配糖果,让满足的孩子的 个数(期望值)是最大的。这个问题的限制值就是糖果个数 m。
我们现在来看看如何用贪心算法来解决。对于一个孩子来说,如果小的糖果可以满足,我们 就没必要用更大的糖果,这样更大的就可以留给其他对糖果大小需求更大的孩子。另一方 面,对糖果大小需求小的孩子更容易被满足,所以,我们可以从需求小的孩子开始分配糖 果。因为满足一个需求大的孩子跟满足一个需求小的孩子,对我们期望值的贡献是一样的。
我们每次从剩下的孩子中,找出对糖果大小需求最小的,然后发给他剩下的糖果中能满足他 的最小的糖果,这样得到的分配方案,也就是满足的孩子个数最多的方案。
2. 钱币找零
这个问题在我们的日常生活中更加普遍。假设我们有 1 元、2 元、5 元、10 元、20 元、 50 元、100 元这些面额的纸币,它们的张数分别是 c1、c2、c5、c10、c20、c50、 c100。我们现在要用这些钱来支付 K 元,最少要用多少张纸币呢?
在生活中,我们肯定是先用面值最大的来支付,如果不够,就继续用更小一点面值的,以此 类推,最后剩下的用 1 元来补齐。
在贡献相同期望值(纸币数目)的情况下,我们希望多贡献点金额,这样就可以让纸币数更 少,这就是一种贪心算法的解决思路。直觉告诉我们,这种处理方法就是最好的。
3. 区间覆盖
假设我们有 n 个区间,区间的起始端点和结束端点分别是 [l1, r1],[l2, r2],[l3, r3], ……,[ln, rn]。我们从这 n 个区间中选出一部分区间,这部分区间满足两两不相交(端点相 交的情况不算相交),最多能选出多少个区间呢?

这个问题的处理思路稍微不是那么好懂,不过,我建议你最好能弄懂,因为这个处理思想在 很多贪心算法问题中都有用到,比如任务调度、教师排课等等问题。 这个问题的解决思路是这样的:我们假设这 n 个区间中最左端点是 lmin,最右端点是 rmax。这个问题就相当于,我们选择几个不相交的区间,从左到右将 [lmin, rmax] 覆盖 上。我们按照起始端点从小到大的顺序对这 n 个区间排序。
我们每次选择的时候,左端点跟前面的已经覆盖的区间不重合的,右端点又尽量小的,这样 可以让剩下的未覆盖区间尽可能的大,就可以放置更多的区间。这实际上就是一种贪心的选择方法

 如何用贪心算法解决赫夫曼编码

假设有一个包含1000个字符的文件,每个字符占1B(1B = 8bit),存储这1000个字符需要8000bit,那么有没有更加节省空间的存储方式呢?

假设通过统计分析发现,这1000个字符中只包含六种不同的字符,假设分别是a,b,c,d,e,f。而三个二进制位(bit)就可以表示8个不同的字符,因此为了减少存储空间,每个字符用三个二进制位来表示:a为000,b为001,c为010,d为011,e为100,f为101。那么,存储这1000个字符只需要3000bit,比原来存储方式节省了很多空间。还有没有更加节省空间的方式呢?

此时就需要用到赫夫曼编码了,他是一种非常有效的编码方式,广泛应用于数据压缩中,其压缩率通常为20%-90%。

霍夫曼编码不仅会考察文本中有多少个不同字符,还会考察每个字符出现的频率,根据频率 的不同,选择不同长度的编码。霍夫曼编码试图用这种不等长的编码方法,来进一步增加压 缩的效率。如何给不同频率的字符选择不同长度的编码呢?根据贪心的思想,我们可以把出 现频率比较多的字符,用稍微短一些的编码;出现频率比较少的字符,用稍微长一些的编 码.
对于等长的编码来说,我们解压缩起来很简单。比如刚才那个例子中,我们用 3 个 bit 表 示一个字符。在解压缩的时候,我们每次从文本中读取 3 位二进制码,然后翻译成对应的 字符。但是,霍夫曼编码是不等长的,每次应该读取 1 位还是 2 位、3 位等等来解压缩 呢?这个问题就导致霍夫曼编码解压缩起来比较复杂。为了避免解压缩过程中的歧义,霍夫 曼编码要求各个字符的编码之间,不会出现某个编码是另一个编码前缀的情况。

 

假设这 6 个字符出现的频率从高到低依次是 a、b、c、d、e、f。我们把它们编码下面这个 样子,任何一个字符的编码都不是另一个的前缀,在解压缩的时候,我们每次会读取尽可能 长的可解压的二进制串,所以在解压缩的时候也不会歧义。经过这种编码压缩之后,这 1000 个字符只需要 2100bits 就可以了

 

尽管霍夫曼编码的思想并不难理解,但是如何根据字符出现频率的不同,给不同的字符进行 不同长度的编码呢?这里的处理稍微有些技巧。
我们把每个字符看作一个节点,并且辅带着把频率放到优先级队列中。我们从队列中取出频 率最小的两个节点 A、B,然后新建一个节点 C,把频率设置为两个节点的频率之和,并把 这个新节点 C 作为节点 A、B 的父节点。最后再把 C 节点放入到优先级队列中。重复这个 过程,直到队列中没有数据。

 

现在,我们给每一条边加上画一个权值,指向左子节点的边我们统统标记为 0,指向右子节 点的边,我们统统标记为 1,那从根节点到叶节点的路径就是叶节点对应字符的霍夫曼编 码

 

 

以上是关于一看就懂的贪心算法的主要内容,如果未能解决你的问题,请参考以下文章

一看就懂的冒泡排序

一看就懂的大数据排序算法:如何给100万用户数据排序?

一看就懂的大数据排序算法:如何给100万用户数据排序?

一看就懂的Tensorflow实战(随机森林)

算法一看就懂之「 插入排序 」

『荐读』算法一看就懂之「 插入排序 」