一次通过在 O(n) 时间内从大量 URL 列表中找到唯一的 URL

Posted 2023-02-23

技术标签:

【中文标题】一次通过在 O(n) 时间内从大量 URL 列表中找到唯一的 URL【英文标题】：Finding a unique url from a large list of URLs in O(n) time in a single pass 【发布时间】：2012-07-01 05:20:58 【问题描述】：

最近我在一次采访中被问到这个问题。我在 O(n) 时间内给出了答案，但分两次。他还问我如果 url 列表无法放入内存中该怎么做。非常感谢任何帮助。

【问题讨论】：

你能提供更多细节吗？你应该找到一个特定的网址吗？还是列表中可能有重复项的唯一项？ “唯一的网址”是什么意思？给定的 URL 在列表中只出现一次？或者至少有一个 URL 只出现在列表中一次？唯一出现在列表中一次但没有给出该 URL 的 URL？唯一的 url 意味着它在列表中只出现一次很高兴看到你的回答如果完整的 URL 列表不适合内存，散列 URL 可能会为您节省一些空间。 【参考方案1】：

如果这一切都适合内存，那么问题很简单：创建两个集合（选择您最喜欢的数据结构），最初都是空的。一个将包含唯一的 URL，另一个将包含多次出现的 URL。扫描一次 URL 列表。对于每个URL，如果存在于唯一集中，则将其从唯一集中移出，放入多重集中；否则，如果它在多重集中不存在，则将其添加到唯一集中。

如果集合不适合内存，问题就很困难。 O(n) 的要求并不难满足，但“单次通过”的要求（似乎排除了随机访问等）是困难的；我认为如果没有对数据的一些限制，这是不可能的。您可以使用对集合有大小限制的集合方法，但这很容易被不幸的数据排序所破坏，并且无论如何只有一定的概率（

编辑：

如果您可以设计一个存在于大容量存储中的集合数据结构（因此它可以大于内存中的容量）并且可以在 O(1)（摊销）时间内进行查找、插入和删除，那么您可以只需使用该结构和第一种方法来解决第二个问题。也许面试官所寻找的只是将 URL 转储到具有 URL 唯一索引和计数列的数据库中。

【讨论】：

如果它们不适合内存，持久哈希表会有所帮助 @FelicePollano - 是的，当你的评论出现在我的屏幕上时，我正在写的内容。 :) @FelicePollano - 但是，我不知道支持 O(1) 操作的持久哈希表实现。没有它，它可以用来满足单次通过的要求，但不能满足 O(n) 的要求。我知道的最好的方法是 O(n log n)。同意你提出的db方案，是否满足复杂性约束？【参考方案2】：

可以尝试使用 Trie 结构来保存数据。它被压缩了，所以它会占用更少的内存，作为常见 url 部分的内存重用。

循环看起来像：

add string s to trie;
check that added string is not finished in existing node
    internal node -> compress path
    leaf node -> delete path

【讨论】：

我想知道它是否满足复杂性要求。在 Trie（或 Patricia 树或任何自定义版本）中插入不是严格意义上的 O(1)，是吗？我知道它是 O(s)，其中 s = 插入字符串的长度。 MM，你认为提出的算法是O(n)吗？我只是使用了一个 python 字典，并使用 url 作为字典的键，并计算了每个 url 的出现次数。现在在第二遍中，我迭代了 dict 以获取计数。 ——mousey 11 小时前所以我们要么忘记这些小事，要么我们必须注意每一个细节。【参考方案3】：

对于“适合内存”的情况，您可以使用如下两个哈希表（伪代码）：

hash-table uniqueTable = <initialization>;
hash-table nonUniqueTable = <initialization>;
for-each url in url-list 
    if (nonUniqueTable.contains(url)) 
        continue;
    
    else if (uniqueTable.contains(url)) 
        nonUniqueTable.add(url);
        uniqueTable.remove(url);
    
    else 
        uniqueTable.add(url)
    

if (uniqueTable.size() > 1)
    return uniqueTable.first();

【讨论】：

如果数据不适合内存？ @Ted Hopp：我不认为它可以一次性完成，尽管我还不能“证明”这一点。（是的，虽然上述解决方案没有存储 all 的 URL，只存储每个多个 URL 的一个实例，但我怀疑它算作第二个问题的一般解决方案。）【参考方案4】：

基于 Python

你有一个list - 不确定它“来自”哪里，但如果你已经在内存中找到它，那么：

L.sort()
from itertools import groupby
for key, vals in groupby(L, lambda L: L):
    if len(vals) == 1:
       print key

否则使用存储（可能使用）：

import sqlite3
db = sqlite3.connect('somefile')
db.execute('create table whatever(key)')

将数据放入其中，然后执行“select * from any group by key where count(*) = 1)”

【讨论】：

【参考方案5】：

这实际上是一个经典的面试问题，他们期望的答案是您首先对 url 进行排序，然后进行二进制搜索。如果它不适合内存，您可以对文件执行相同的操作。

【讨论】：

好点，尽管您的方法仍然需要不止一次通过。这将是我与面试官辩论的事情，因为我不完全确定 URL 的排序是否应该考虑在内，因为这很可能是静态数据并且应该存储那样，但如果是这样，那么您可以将您要查找的 url 包含在排序中，找到它的位置，然后左右查看列表中是否有另一个类似的 URL 但是基数排序本身需要在这里多次通过。

以上是关于一次通过在 O(n) 时间内从大量 URL 列表中找到唯一的 URL的主要内容，如果未能解决你的问题，请参考以下文章