NLP:从文本中检索词汇

Posted

技术标签:

【中文标题】NLP:从文本中检索词汇【英文标题】:NLP: retrieve vocabulary from text 【发布时间】:2015-05-30 10:15:48 【问题描述】:

我有一些不同语言的文本,并且可能存在一些拼写错误或其他错误,我想检索它们自己的词汇。总的来说,我对 NLP 没有经验,所以也许我用了一些不当的词。

词汇是指单一语言的单词集合,其中每个单词都是唯一的,并且不考虑性别、数字或时态的变化(例如 thinkthinksthought 都是考虑 think)。

这是主要问题,所以让我们将其简化为一种语言的词汇检索,例如英语,并且没有错误。

我认为(至少)有三种不同的方法,也许解决方案包括它们的组合:

在数据库中搜索相互关联的单词。因此,我可以搜索 thought(考虑动词)并阅读相关信息,即 thoughtthink 的变形 通过处理变形形式来计算单词的“基本形式”(没有变形的单词)。也许可以用词干来完成? 通过任何 API 使用服务。是的,我也接受这种方法,但我更愿意在本地进行

对于第一个近似值,算法没有必要区分名词和动词。例如,如果在文本中有像名词和动词一样的单词thought,则可以认为它在第二次匹配时已经出现在词汇表中。

我们减少了检索英文文本词汇的问题,没有错误,不考虑单词的标签。

关于如何做到这一点的任何想法?还是只是一些提示?

当然,如果您对这个问题还有其他限制(错误和多语言,不仅是印欧语言)有任何建议,我们将不胜感激。

【问题讨论】:

您可以使用维基词典作为您的首选方法 @VsevolodDyomkin 感谢您的关注。我发现维基词典没有一套严格的信息规则。它有一些指导方针,但这些不能保证定义的结构(如Entry layout explained, Flexibility 中所述)。你知道其他结构严格的数据库吗? 是的,维基词典是半结构化的,但您仍然可以从维基词典定义中提取单词形式(这里有一些示例代码如何处理它们 - lisp-univ-etc.blogspot.com/2013/06/…,但您也可以查看不同的工具,例如wiktionary-to-mysql、wiktionary-to-redis 或 wiktionary-to-dbpedia) @VsevolodDyomkin 链接给出 404 看起来应该是lisp-univ-etc.blogspot.com/2013/06/…(我看不出有什么区别,但这个对我有用吗?) 【参考方案1】:

您需要词形还原 - 它类似于您的第二个项目,但不完全是 (difference)。

尝试nltk lemmatizer 用于Python 或Standford NLP/Clear NLP 用于Java。实际上 nltk 使用的是 WordNet,所以它实际上是第一种和第二种方法的结合。

为了应对错误,请在词形还原之前使用拼写更正。查看 related questions 或 Google 以获取适当的库。

关于词性标签 - 不幸的是,nltk 不考虑词性标签(和一般的上下文),因此您应该为其提供可以通过 nltk 词性标签找到的标签。同样,已经讨论过here(以及相关/链接的问题)。我不确定斯坦福 NLP 在这里 - 我想它应该考虑上下文,但我确信 NLTK 会这样做。从this code snippet 可以看出,Stanford 不使用 POS 标签,而 Clear NLP 使用。

关于其他语言 - 谷歌的词形还原模型,因为大多数语言(至少来自同一家族)的算法几乎相同,差异在于训练数据。看看here,例如德语;如我所见,它是几个词形还原器的包装器。

但是,您始终可以以精度为代价使用词干分析器,而且词干分析器更容易用于不同的语言。

【讨论】:

词形还原是一个非常有用的技巧。谢谢。【参考方案2】:

主题词已成为当今世界日益激烈的辩论中不可或缺的一部分。有些人认为主题词(同义词)是有益的,而反对者则拒绝这一概念,称它会导致许多问题。从我的角度来看,主题词(同义词)在全球范围内的积极影响多于消极影响。本文将进一步阐述这一趋势的正面和负面影响,从而得出一个合理的结论。

一方面,有无数的论据支持我的信念。这个话题有很多优点。最突出的一个是主题词(同义词)。根据西悉尼大学进行的研究,超过 70% 的用户赞成主题词(同义词)提供的好处。其次,论文题目的优势。因此,可以说主题词(同义词)在我们的生活中起着至关重要的作用。

另一方面,批评者可能会指出,主题词(同义词)最显着的缺点之一是由于缺点与主题相关。例如,在美国进行的一项调查揭示了这一缺点。因此,这个例子明确表明它对我们的存在产生了各种负面影响。

因此,在查看了更多的段落之后,我深信它的好处比缺点更多。主题词(同义词)已成为我们生活中至关重要的一部分。因此,应提倡有效使用主题词(同义词)方法;但是,过度和滥用应该受到谴责。

【讨论】:

以上是关于NLP:从文本中检索词汇的主要内容,如果未能解决你的问题,请参考以下文章

达观数据NLP技术的应用实践和案例分析

文本分类

文本分类

自然语言处理NLP之文本摘要机器翻译OCR信息检索信息抽取校对纠错

全文检索引擎Apache Lucene词汇表和架构

NLP/机器学习文本比较[关闭]