如何自动对字典中的单词进行分类?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何自动对字典中的单词进行分类?相关的知识,希望对你有一定的参考价值。

我有一个很大的字典文件,dic.txt(实际上是SOWPODS),每行有一个英文单词。我想自动将这个文件分成3个不同的文件easy_dic.txt(我们每天使用的最常见的单词 - 一个16岁的词汇),medium_dic.txt(这些单词在常用中并没有那么多,但许多人都知道 - 知识一个30岁的减去easy_dic.txt中的单词,hard_dic.txt(非常深奥的单词,只有专业的拼字游戏玩家会知道)。什么是最简单的方法(您可以使用互联网上的任何资源)来实现这一目标?

答案

谷歌有合适的工具:),并分享其数据库!

Ngram viewer是一个检查和比较文学,杂志等词语出现频率的工具。

您可以下载数据库,并从here训练您的词典。

HTH!

BTW这个工具非常有趣,可以发现这个词的出生和消失日期。

另一答案
  • 拿一些以计算机可读形式提供的书籍(最好是三个类别)。
  • 为这些书中的所有单词创建直方图。
  • 合并每个类别的所有书籍的直方图。
  • 处理字典时,请检查字词具有最高计数的直方图的类别,并将该字词放在此类别中。

除了最后一步之外,您还可以简单地处理直方图并从所有直方图中删除一个单词,除了具有最高点击量的单词。然后你已经有一个单词列表,而不使用外部字典文件。

另一答案

下载Wikipedia转储,使用一些Lingpipe工具(最佳数据结构)学习单词频率。检查字典频率分布中的单词,然后将它们分成3组。

以上是关于如何自动对字典中的单词进行分类?的主要内容,如果未能解决你的问题,请参考以下文章

技巧114 使用字典中的单词进行自动补全

我如何根据姓名、数字、金钱、日期等对文本中的单词进行分类?

检查列中的单词是不是与字典中的单词匹配

使用 Weka 进行句子分类

如何在分类中包含单词作为数字特征

如何从python中的字典输出中组装时间序列数据以进行监督分类