如何自动对字典中的单词进行分类?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何自动对字典中的单词进行分类?相关的知识,希望对你有一定的参考价值。
我有一个很大的字典文件,dic.txt(实际上是SOWPODS),每行有一个英文单词。我想自动将这个文件分成3个不同的文件easy_dic.txt(我们每天使用的最常见的单词 - 一个16岁的词汇),medium_dic.txt(这些单词在常用中并没有那么多,但许多人都知道 - 知识一个30岁的减去easy_dic.txt中的单词,hard_dic.txt(非常深奥的单词,只有专业的拼字游戏玩家会知道)。什么是最简单的方法(您可以使用互联网上的任何资源)来实现这一目标?
答案
谷歌有合适的工具:),并分享其数据库!
Ngram viewer是一个检查和比较文学,杂志等词语出现频率的工具。
您可以下载数据库,并从here训练您的词典。
HTH!
BTW这个工具非常有趣,可以发现这个词的出生和消失日期。
另一答案
- 拿一些以计算机可读形式提供的书籍(最好是三个类别)。
- 为这些书中的所有单词创建直方图。
- 合并每个类别的所有书籍的直方图。
- 处理字典时,请检查字词具有最高计数的直方图的类别,并将该字词放在此类别中。
除了最后一步之外,您还可以简单地处理直方图并从所有直方图中删除一个单词,除了具有最高点击量的单词。然后你已经有一个单词列表,而不使用外部字典文件。
另一答案
下载Wikipedia转储,使用一些Lingpipe工具(最佳数据结构)学习单词频率。检查字典频率分布中的单词,然后将它们分成3组。
以上是关于如何自动对字典中的单词进行分类?的主要内容,如果未能解决你的问题,请参考以下文章