更快地查找受时间限制的重复项

Posted 2023-03-15

技术标签:

【中文标题】更快地查找受时间限制的重复项【英文标题】：Faster way to find duplicates conditioned by time 【发布时间】：2010-09-05 14:37:10 【问题描述】：

在没有PERL 的AIX 机器中，如果它们具有相同的ID 并且在四个小时内注册，我需要过滤将被视为重复的记录。

我使用AWK 实现了这个过滤器并且工作得很好，但我需要一个更快的解决方案：

# Generar lista de Duplicados awk'开始 FS="," /好的/ 老[$8] = f[$8]; f[$8] = mktime($4, $3, $2, $5, $6, $7); x[$8]++; /OK/ && x[$8]>1 && f[$8]-old[$8]

有什么建议吗？有没有办法改善环境（预加载文件或类似的东西）？

输入文件已经排序。

根据jj33 建议的更正，我制作了一个新版本，对日期进行了更好的处理，但仍然保持低调以合并更多操作：

awk'开始 FS=","; 秒每分钟=60；秒=3600； SECSPERDAY=86400；拆分（“0 31 59 90 120 151 181 212 243 273 304 334”，DAYSTOMONTH，“”）；拆分（“0 366 731 1096 1461 1827 2192 2557 2922 3288 3653 4018 4383 4749 5114 5479 5844 6210 6575 6940 7305”，DAYSTOYEAR，“”）； /好的/ 老[$8] = f[$8]; f[$8] = mktime($4, $3, $2, $5, $6, $7); x[$8]++; /OK/ && x[$8]>1 && f[$8]-old[$8] 2 ) && ( ((y % 4 == 0) && (y % 100 != 0)) || (y % 400 = = 0) ) ) d2m = d2m + 1； d2y = DAYSTOYEAR[ y - 1999 ]；返回 ss + (mm*SECSPERMINUTE) + (hh*SECSPEROUR) + (d*SECSPERDAY) + (d2m*SECSPERDAY) + (d2y*SECSPERDAY); '

【问题讨论】：

【参考方案1】：

这听起来像是一个实际数据库的工作。甚至像 SQLite 这样的东西也可能在这里为您提供相当好的帮助。我看到的最大问题是您对“4 小时内”的定义。这是一个滑动窗口问题，这意味着您不能简单地将所有数据量化为 4 小时段……您必须分别计算每个其他元素的所有“附近”元素。呃。

【讨论】：

【参考方案2】：

@AnotherHowie，我认为整个预处理可以用 sort 和 uniq 来完成。问题是 OP 的数据似乎是逗号分隔的，并且（Solaris 8 的）uniq 不允许您以任何方式指定记录分隔符，因此没有使用标准 unix 工具进行预处理的超级干净的方法。我不认为它会更快，所以我不会查找确切的选项，但您可以执行以下操作：

cut -d, -f8 <infile.txt | sort | uniq -d | xargs -i grep  infile.txt >outfile.txt

这不是很好，因为它对包含重复键的每一行执行 grep。您可能可以将 uniq 输出按摩到单个正则表达式中以提供给 grep，但只有当 OP 发布包含可疑重复键的行与文件中总行的预期比率时，才能知道好处。

【讨论】：

【参考方案3】：

在许多 unixen 上，您可以通过特定的列或字段进行排序。因此，通过按 ID 排序文件，然后按日期排序，您不再需要保留上次看到每个 ID 时间的关联数组。所有上下文都按文件顺序排列。

在我有 GNU 排序的 Mac 上，它是：

sort -k 8 < input.txt > output.txt

按 ID 字段排序。您也可以通过说（例如）8,3 来对第二个字段进行排序，但只有 2 个字段。因此，unix 风格的 time_t 时间戳在文件中可能不是一个坏主意 - 它很容易排序，并为您节省所有这些日期计算。此外，（再次至少在 GNU awk 中），有一个 mktime function 可以从组件中为您生成 time_t。

【讨论】：

【参考方案4】：

我认为您需要考虑闰年。我没有做数学计算，但我认为在闰年，2 月的硬编码为 28 天，比较 2/29 中午和 3/1 中午会导致与以前相同的重复时间戳.虽然看起来你没有像那样实现它。他们按照你实现它的方式，我认为你仍然有问题，但它介于 $leapyear 的 12/31 和 $leapyear+1 的 1/1 之间。

如果您的代码必须处理处理它们的时区，我认为您可能还会在时间更改期间遇到一些冲突。

该文件似乎并没有以任何有用的方式进行排序。我猜该字段 $1 是某种状态（您正在检查的“OK”）。所以它是按记录状态排序的，然后是天，然后是月、年、小时、分钟、秒。如果是年、月、日，我认为那里可能会有一些优化。仍然可能是，但我的大脑现在正朝着不同的方向发展。

如果重复键的数量与总行数成比例，我认为最好的办法是将 awk 脚本处理的文件减少为仅重复键（如David said）。您还可以对文件进行预处理，以便唯一存在的行是 /OK/ 行。我想我会用一个管道来做到这一点，其中第一个 awk 脚本只打印具有重复 ID 的行，而第二个 awk 脚本基本上是上面的那个，但优化为不查找 /OK/ 并且知道存在的任何键都是重复键。

如果您提前知道所有或大多数行都会有重复的键，那么可能不值得搞砸。我会硬着头皮用 C 语言编写它。代码行数更多，比 awk 脚本快得多。

【讨论】：

【参考方案5】：

输入文件是如何排序的？比如，cat 文件|排序，还是通过单个特定字段或多个字段排序？如果有多个字段，哪些字段和顺序是什么？似乎小时字段是 24 小时制，而不是 12，对吧？所有日期/时间字段是否都用零填充（上午 9 点是“9”还是“09”？）

在不考虑性能的情况下，您的代码似乎存在月份边界问题，因为它假设所有月份都是 30 天。取两个日期 2008-05-31/12:00:00 和 2008-06-01:12:00:00。它们相隔 24 小时，但您的代码为两者生成相同的时间代码 (63339969600)

【讨论】：

【参考方案6】：

如果您的数据文件包含您的所有记录（即它包括文件中没有重复 ID 的记录），您可以对其进行预处理并生成一个仅包含具有重复 (ID) 记录的文件。

如果这种情况会减少您需要使用 AWK 程序处理的文件大小。

【讨论】：

以上是关于更快地查找受时间限制的重复项的主要内容，如果未能解决你的问题，请参考以下文章