如何抓取语义相似的句子

Posted

技术标签:

【中文标题】如何抓取语义相似的句子【英文标题】:how to crawl semantically similar sentences 【发布时间】:2020-09-25 14:04:26 【问题描述】:

我想为机器学习任务创建一个语料库。我有一个小的文本数据集,想从网络上抓取类似的句子。我使用了带有 Bert 相关模型、doc2vec 和 spacy 相似度的 sentence_transformers 包来测量相似度。我将阈值设置为 85%,但相似度得分高于阈值的句子并不真正相关。如何在python中从网络上抓取类似的句子?

【问题讨论】:

请在您的问题中包含minimal reproducible example。现在你的问题不够集中,无法回答。 【参考方案1】:

我认为您应该在大型语料库上训练一个大型模型,然后使用该模型生成随机句子。 gensim 库有几个 corpora link 可以用来查找相似句子或训练生成相似句子的模型,here 是怎么做的。

【讨论】:

以上是关于如何抓取语义相似的句子的主要内容,如果未能解决你的问题,请参考以下文章

估计句子之间“近似”语义相似性的一些好方法是啥?

如何度量两个词之间的语义相似度

英文句子相似性判断

Java之词义相似度计算(语义识别词语情感趋势词林相似度拼音相似度概念相似度字面相似度)

Java之词义相似度计算(语义识别词语情感趋势词林相似度拼音相似度概念相似度字面相似度)

DSSM:深度语义匹配模型(及其变体CLSMLSTM-DSSM)