给定 csv 文件,我需要根据相似度得分打印那些最相似的句子
Posted
技术标签:
【中文标题】给定 csv 文件,我需要根据相似度得分打印那些最相似的句子【英文标题】:Given csv file , I need to print those sentence which are most similar based upon the similarity score 【发布时间】:2019-10-18 16:57:37 【问题描述】:对于给定的.csv
文件,包含'N' ID,句子
问题是在给定的 csv 文件中找到最匹配的句子
【问题讨论】:
【参考方案1】:如果您要过滤所有包含“N”的句子,请使用:
import pandas as pd
file=pd.read_csv(r"the file's path")
df=pd.DataFrame(file)
df_new=[df!='N']
如果您正在寻找相似之处,那么这是一个 NLP 问题。在这种情况下,您应该先将句子编码成稀疏矩阵,然后使用 K-means 或其他聚类方法来比较相似度。
【讨论】:
以上是关于给定 csv 文件,我需要根据相似度得分打印那些最相似的句子的主要内容,如果未能解决你的问题,请参考以下文章