用于多句子文本相似度的通用句子编码器

Posted

技术标签:

【中文标题】用于多句子文本相似度的通用句子编码器【英文标题】:Universal sentence encoder for multi sentence text similarity 【发布时间】:2021-05-23 08:02:28 【问题描述】:

我正在使用通用句子编码器计算 2 个文本之间的相似度

我的问题是在句子级别嵌入文本(产生的向量数等于句子数)然后平均分数而不是仅仅为每个文本创建一个向量是正确的方法吗?

【问题讨论】:

【参考方案1】:

与往常一样,这取决于您的数据集。您可以尝试两种方式,看看哪一种方式给出了对您的用例有用的分数。总的来说,我发现一次将整个文本输入到 USE 最多 100 个单词的文本就可以了,甚至更好。不需要断句再平均。

【讨论】:

以上是关于用于多句子文本相似度的通用句子编码器的主要内容,如果未能解决你的问题,请参考以下文章

如何抓取语义相似的句子

使用句子级相似度的释义识别

计算句子相似度的方法

给定单词相似度推断句子相似度

人工智能干货推荐[第2020-49期][02NLP][Sentence-BERT:一种能快速计算句子相似度的孪生网络]

LSTM 句子相似度分析