给定 csv 文件,我需要根据相似度得分打印那些最相似的句子

Posted

技术标签:

【中文标题】给定 csv 文件,我需要根据相似度得分打印那些最相似的句子【英文标题】:Given csv file , I need to print those sentence which are most similar based upon the similarity score 【发布时间】:2019-10-18 16:57:37 【问题描述】:

对于给定的.csv 文件,包含'N' ID,句子 问题是在给定的 csv 文件中找到最匹配的句子

【问题讨论】:

【参考方案1】:

如果您要过滤所有包含“N”的句子,请使用:

import pandas as pd
file=pd.read_csv(r"the file's path")
df=pd.DataFrame(file)
df_new=[df!='N']

如果您正在寻找相似之处,那么这是一个 NLP 问题。在这种情况下,您应该先将句子编码成稀疏矩阵,然后使用 K-means 或其他聚类方法来比较相似度。

【讨论】:

以上是关于给定 csv 文件,我需要根据相似度得分打印那些最相似的句子的主要内容,如果未能解决你的问题,请参考以下文章

你知道es是如何计算相似度得分的吗?

你知道es是如何计算相似度得分的吗?

你知道es是如何计算相似度得分的吗?

在python中计算单词相似度得分

如何从 TfidfVectorizer 计算余弦相似度?

如何从TfidfVectorizer计算余弦相似度?