为自动更正程序快速保存和检索 python 数据结构?

Posted

技术标签:

【中文标题】为自动更正程序快速保存和检索 python 数据结构?【英文标题】:Fast saving and retrieving of python data structures for an autocorrect program? 【发布时间】:2016-07-22 20:25:56 【问题描述】:

所以,我在 Python 2 中编写了一个自动完成和自动更正程序。我使用提到的方法编写了自动更正程序,这是 Peter Norvig 关于如何编写拼写检查器的博客link。

现在,我正在使用使用嵌套列表实现的 trie 数据结构。我正在使用 trie,因为它可以给我所有以特定前缀开头的单词。叶子将是一个包含单词的元组和一个表示单词频率的值。例如 - 单词 bad,bat,cat 将是另存为-

['b'['a'['d',('bad',4),'t',('bat',3)]],'c'['a'['t',('cat',4)]]]

其中 4,3,4 是单词被使用的次数或频率值。同样,我尝试了大约 130,000 个英语词典的单词,并使用 cPickle 存储它。

现在,每次读取整个 trie 大约需要 3-4 秒。问题是每次遇到单词时,频率值都必须递增,然后需要再次保存更新的 trie。正如您可以想象的那样,每次等待 3-4 秒来读取然后再次等待那么多时间来保存更新的 trie 将是一个大问题。每次运行程序并保存它们时,我都需要执行大量更新操作。

是否有更快或更有效的方法来存储重复更新的大型数据结构? IDE 和移动设备中的自动更正程序的数据结构如何如此快速地保存和检索?我也对不同的方法持开放态度。

【问题讨论】:

【参考方案1】:

我想到了一些事情。

1) 拆分数据。假设使用 26 个文件,每个文件存储以某个字符开头的尝试。您可以对其进行改进,以便使用前缀。这样你需要写入的数据量就更少了。

2) 不要将所有内容都反映到磁盘。如果您需要执行大量操作,请在 ram(内存)中执行它们并在结束时将它们写下来。如果您担心数据丢失,您可以在 X 时间或多次操作后检查您的计算。

3) 多线程。除非您的程序只进行拼写检查,否则它可能还需要做其他事情。有一个单独的线程来加载写入,这样它就不会在执行磁盘 IO 时阻塞所有内容。 python中的多线程有点棘手,但可以做到。

4) 自定义结构。序列化所花费的部分时间是调用序列化函数。因为你有一本字典,里面有很多函数调用。在完美的情况下,您应该有一个与磁盘表示完全匹配的内存表示。然后,您只需读取一个大字符串并将其放入您的自定义类(并在需要时将该字符串写入磁盘)。这有点高级,而且好处可能不会那么大,尤其是因为 python 在玩位方面效率不高,但是如果您需要从中挤出最后一点速度,这就是要走的路。

【讨论】:

@gospelslide:你可能想看看klepto 包(我是作者),它是为了方便上面的优秀建议而构建的。【参考方案2】:

我建议您将序列化移动到一个单独的线程并定期运行它。您不需要每次都重新读取数据,因为您已经在内存中拥有最新版本。这样,您的程序将在将数据保存到磁盘时响应用户。磁盘上保存的版本可能会滞后,并且最新的更新可能会在程序崩溃的情况下丢失,但我认为这对您的用例来说应该不是一个大问题。

这取决于特定的用例和环境,但我认为,大多数具有本地数据集的程序使用多线程同步它们。

【讨论】:

以上是关于为自动更正程序快速保存和检索 python 数据结构?的主要内容,如果未能解决你的问题,请参考以下文章

word中如何取消日期自动更正

保存 EditText 并自动检索它

使用Python,Tesseract更正文本方向

自动更正python列表中的单词

UITextField 的安全文本输入和自动更正之间的交互是啥?

遍历 for 循环并将检索到的数据保存在每个循环的唯一 csv 文件中 | Python