论文泛读142Sentence-BERT：使用 Siamese BERT-Networks 的句子嵌入

Posted 2021-06-30 及时行樂_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读142Sentence-BERT：使用 Siamese BERT-Networks 的句子嵌入相关的知识，希望对你有一定的参考价值。

论文链接：《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》

一、摘要

BERT (Devlin et al., 2018) 和 RoBERTa (Liu et al., 2019) 在语义文本相似性 (STS) 等句子对回归任务上取得了新的最先进的性能。然而，它需要将两个句子都输入网络，这会导致大量的计算开销：在 10,000 个句子的集合中找到最相似的一对需要使用 BERT 进行大约 5000 万次推理计算（约 65 小时）。BERT 的构建使其不适用于语义相似性搜索以及聚类等无监督任务。

在本出版物中，我们介绍了 Sentence-BERT (SBERT)，这是对预训练 BERT 网络的一种修改，该网络使用 siamese 和三元组网络结构来推导语义上有意义的句子嵌入，可以使用余弦相似度进行比较。这将寻找最相似对的工作量从使用 BERT / RoBERTa 的 65 小时减少到使用 SBERT 的大约 5 秒，同时保持了 BERT 的准确性。

我们在常见的 STS 任务和迁移学习任务上评估 SBERT 和 SRoBERTa，它优于其他最先进的句子嵌入方法。

对于本文，有一篇文章解释的挺好：SBERT解释

二、结论

我们展示了BERT现成的将句子映射到向量空间的方法，这种方法不适合与余弦相似性这样的常用相似性度量一起使用。七个STS任务的性能低于平均GloV e嵌入的性能。

为了克服这个缺点，我们提出了Sentence-BERT(SBERT)。SBERT在siamese/ triplet网络架构中微调BERT。我们评估了各种常见基准的质量，与最先进的句子嵌入方法相比，它可以实现显著的改进。用SBERT代替BERT并没有在我们的实验中产生显著的改善。

SBERT计算效率高。在GPU上，它比InferSent快约9%，比通用句子编码器快约55%。SBERT可用于计算上无法用BERT建模的任务。例如，用层次聚类对10，000个句子进行聚类需要BERT大约65个小时，因为必须计算大约5000万个句子组合。通过SBERT，我们能够将工作量减少到大约5秒钟。

具体的看看上面给出的链接叭，文本提出的方法主要是提高计算效率，另外，本文提出的几个对比实验也可以好好看看。

以上是关于论文泛读142Sentence-BERT：使用 Siamese BERT-Networks 的句子嵌入的主要内容，如果未能解决你的问题，请参考以下文章