中文短句相似度匹配方法?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文短句相似度匹配方法?相关的知识,希望对你有一定的参考价值。
标准问句:延安路11号
语句一:延安路11号1单元101室
语句二:北京市延安路13号
语句二:上海黄浦区延安东路11号
如何计算 标准问句 与下面各个语句之前的相似度,并且匹配到最相似的一句?(最好能用python实现)
网上搜索关键词“短文本 相似度”,出来的结果基本上都是以BOW(Bag of words)的VSM方案,大致流程如下:
分词 —> 提取关键词 —> 计算tf或if-idf,以向量的形式替换原文本 —> 文本相似度的问题转变为计算向量相似度
一开始这样的一个思路,很清晰明了,而且网上相应的资料也很多,然后就开搞吧。
1、把所有短文本去掉标点符号,用jieba分词分好词,去除停用词,得到分好的文本;
2、按一定规则抽取特征词汇,作为后期向量的每一维;
3、用sklearn库中的原生方法CountVectorizer、TfidfVectorizer等得到矩阵;
4、每个短文本计算对应得到的向量,采用K-Means聚类的方法进行非监督学习。
文本分类的大致思路基本上就如上所述,具体的细节调整就视实际情况而定。然而,想法是美好的,现实是残酷的,全部分好词的文本,抽取的特征词较多,即向量的维度较大,且向量是稀疏的,在使用K-Means时,会出现有个别cluster下的文本数量特别大; 参考技术A 描写春节的词语。
喜气洋洋,万事如意。恭喜发财。一帆风顺。 参考技术B 中国电锯相似的匹配方法,按照上面一个设定直接去做,我觉 参考技术C 中文短句相似度匹配方法,他的匹配方法是很多的 参考技术D 中文短句相似度的匹配方法有很多。
矩阵匹配及相似度计算
https://www.docin.com/p-1699190456.html
基于精确的点模式识别和TurningFunction的几何形状相似性判定问题
http://www.doc88.com/p-0952897045830.html
一种基于Fr_chet距离的复杂线状要素匹配方法_邵世维
https://blog.csdn.net/qq_36919570/article/details/79991322
以上是关于中文短句相似度匹配方法?的主要内容,如果未能解决你的问题,请参考以下文章