找到100亿个URL中重复的URL

Posted LiveEveryDay

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了找到100亿个URL中重复的URL相关的知识,希望对你有一定的参考价值。

分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击http://www.captainbed.net

把大文件通过哈希函数分配到机器,或者通过哈希函数把大文件拆成小文件。一直进行这种划分,直到划分的结果满足资源限制的要求。首先,你要询问在资源上的限制有哪些,包括内存、计算时间等要求。在明确了限制要求之后,可以将每条URL通过哈希函数分配到若干机器或者拆分成若干小文件,这里的“若干”由具体的资源限制来计算出精确的数量。

例如,将100亿字节的大文件通过哈希函数分配到100台机器上,然后每一台机器分别统计分给自己的URL中是否有重复的URL,同时哈希函数的性质决定了同一条URL不可能分给不同的机器;或者在单机上将大文件通过哈希函数拆成1000个小文件,对每一个小文件再利用哈希表遍历,找出重复的URL;或者在分给机器或拆完文件之后,进行排序,排序过后再看是否有重复的URL出现。总之,牢记一点,很多大数据问题都离不开分流,要么是哈希函数把大文件的内容分配给不同的机器,要么是哈希函数把大文件拆成小文件,然后处理每一个小数量的集合。

以上是关于找到100亿个URL中重复的URL的主要内容,如果未能解决你的问题,请参考以下文章

面试必问:如何从 100 亿 URL 中找出相同的 URL?

面试必问:如何从 100 亿 URL 中找出相同的 URL?

java2亿个随机生成的无序整数,如何找到其中位数

给定ab两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出ab文件共同的url?

给定 40 亿个数字,如何找到不在这 40 亿个数字中的数字?我们只有 1GB 的内存 [重复]

面试- 阿里-. 大数据题目- 给定ab两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出ab文件共同的url?