从语料库中提取相似词

Posted

技术标签:

【中文标题】从语料库中提取相似词【英文标题】:Extract similar words from a corpus 【发布时间】:2014-10-21 21:03:20 【问题描述】:

我想从语料库中提取相似的词。相似度基于字符串。即,当两个词的串高度相似时,将两个词提取为相似词。例如,如果语料库包含:Aras、bahro、arasis、adkpo、bah、aras sd、kio。

相似词:

1- aras,arasis,aras sd

2- 呸,呸

如何解决这个问题? 谢谢。

【问题讨论】:

【参考方案1】:

Levenshtein distance 是衡量两个单词序列之间差异的度量,也许您可​​以取一个单词序列并计算距离以知道它们是否相似。

【讨论】:

我会添加对类似内容的引用:***.com/questions/10136470/… 你可以查看我对类似问题的回答:***.com/questions/24150440/…

以上是关于从语料库中提取相似词的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 nltk 从大文本语料库中仅提取英文单词?

可以自动找到停止词吗?

可以自动找到停用词吗?

聊天机器人语料准备

词向量:GloVe

如何分析词与词之间的相关性?