论文泛读142Sentence-BERT:使用 Siamese BERT-Networks 的句子嵌入
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读142Sentence-BERT:使用 Siamese BERT-Networks 的句子嵌入相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》
一、摘要
BERT (Devlin et al., 2018) 和 RoBERTa (Liu et al., 2019) 在语义文本相似性 (STS) 等句子对回归任务上取得了新的最先进的性能。然而,它需要将两个句子都输入网络,这会导致大量的计算开销:在 10,000 个句子的集合中找到最相似的一对需要使用 BERT 进行大约 5000 万次推理计算(约 65 小时)。BERT 的构建使其不适用于语义相似性搜索以及聚类等无监督任务。
在本出版物中,我们介绍了 Sentence-BERT (SBERT),这是对预训练 BERT 网络的一种修改,该网络使用 siamese 和三元组网络结构来推导语义上有意义的句子嵌入,可以使用余弦相似度进行比较。这将寻找最相似对的工作量从使用 BERT / RoBERTa 的 65 小时减少到使用 SBERT 的大约 5 秒,同时保持了 BERT 的准确性。
我们在常见的 STS 任务和迁移学习任务上评估 SBERT 和 SRoBERTa,它优于其他最先进的句子嵌入方法。
对于本文,有一篇文章解释的挺好:SBERT解释
二、结论
我们展示了BERT现成的将句子映射到向量空间的方法,这种方法不适合与余弦相似性这样的常用相似性度量一起使用。七个STS任务的性能低于平均GloV e嵌入的性能。
为了克服这个缺点,我们提出了Sentence-BERT(SBERT)。SBERT在siamese/ triplet网络架构中微调BERT。我们评估了各种常见基准的质量,与最先进的句子嵌入方法相比,它可以实现显著的改进。用SBERT代替BERT并没有在我们的实验中产生显著的改善。
SBERT计算效率高。在GPU上,它比InferSent快约9%,比通用句子编码器快约55%。SBERT可用于计算上无法用BERT建模的任务。例如,用层次聚类对10,000个句子进行聚类需要BERT大约65个小时,因为必须计算大约5000万个句子组合。通过SBERT,我们能够将工作量减少到大约5秒钟。
具体的看看上面给出的链接叭,文本提出的方法主要是提高计算效率,另外,本文提出的几个对比实验也可以好好看看。
以上是关于论文泛读142Sentence-BERT:使用 Siamese BERT-Networks 的句子嵌入的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读ConvNeXt:A ConvNet for the 2020s(新时代的卷积)