查找给定 40 亿个整数中不存在的整数 [重复]

Posted

技术标签:

【中文标题】查找给定 40 亿个整数中不存在的整数 [重复]【英文标题】:Find an integer not present in given 4 billion integers [duplicate] 【发布时间】:2015-03-12 12:21:10 【问题描述】:

我在破解编码面试书时遇到了这个问题。

问题:给定一个包含 40 亿个非负整数的输入文件, 提供一种算法来生成一个不包含在 文件。假设您有 1 GB 的内存可用于此任务。

我的问题:为什么我们不能使用 BitSet 而不是 Byte[] ?这不会简化事情吗?

代码:

 long numberOflnts = ((long) Integer.MAX_VALUE) + I;
 byte[] bitfield = new byte [(int) (numberOflnts / 8)];
 void findOpenNumberQ throws FileNotFoundException 
 Scanner in = new Scanner(new FileReader("file.txt"));
 while (in.hasNextlntQ) 
 int n = in.nextlnt ();
 /* Finds the corresponding number in the bitfield by using
 * the OR operator to set the nth bit of a byte
 * (e.g., 10 would correspond to the 2nd bit of index 2 in
 * the byte array). */
 bitfield [n / 8] |= 1 « (n % 8);
 

 for (int i = 0; i < bitfield.length; i++) 
 for (int j = 0; j < 8; j++) 
 /* Retrieves the individual bits of each byte. When 0 bit
 * is found, finds the corresponding value. */
 if ((bitfield[i] & (1 « j)) == 0) 
 System.out.println (i * 8 + j);
 return;
 
 
 

跟进: 如果您只有 10 MB 的内存怎么办?假设所有值都是不同的。

【问题讨论】:

***.com/questions/7153659/… 这不是“编程珍珠”的问题吗? 为什么我们不能使用 BitSet 而不是 Byte[] ? @Walt BitSet 是特定于 Java 的。问题不是。你也错过了问题的重点。 哦,好的。所以,我认为我们可以很好地使用BitSet。我现在该怎么处理这个问题?删除它? 【参考方案1】:

这个问题确实允许替代解决方案。 Java 的BitSet 可以工作,但有几个隐藏的陷阱:

Java VM 需要一些内存。所以你可能会耗尽内存。 BitSet 由数组支持。 Java 数组使用 32 位有符号整数作为索引,因此您实际上有 2^31 个条目。由于每个都是 64 位长,这就足够了。 当添加位时,集合会增长。最终,Java 代码需要为新位分配一个新数组。如果您不小心,您可能会在此步骤中耗尽内存。解决方法是从一开始就创建 2^32 位的数组。

【讨论】:

以上是关于查找给定 40 亿个整数中不存在的整数 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

编程珍珠:在 40 亿个整数的文件中查找缺失的整数

使用 4 mb 查找不在 40 亿列表中的整数。但是4 MB是不够的[重复]

C++进阶哈希的应用

C++进阶哈希的应用

C++进阶哈希的应用

位图与布隆及大数据处理题型分析