Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval

Posted 2022-01-19 Facico

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval相关的知识，希望对你有一定的参考价值。

密集检索 (DR) 的有效性通常需要与稀疏检索相结合

主要瓶颈在训练机制，训练中使用的负面实例不能代表不相关文档，如下图所示
本文介绍最邻近负对比估计(ANCE)：从语料库的最邻近(ANN)索引构造负样本的计件制，该索引与学习过程并行更新以选择更真实的负样本（这种方式从根本上解决了DR训练和测试中数据分布间的差异）

实验中，ANCE提升了BERT-Siamese DR 模型到超过所有计算密集检索系数的baseline。效果和用点积的sparse-retrieval-and-BERT-reranking相匹配，并提速将近100倍。

方法

负样本有两种

在对比学习的思想中，我们希望使用一些方法检索这些难判别的负样本来增强模型的效果

一个标准的DR(dense retrieval)结构会使用孪生或dual-encoder结构，如下

DR使用ANN（Approximate nearest neighbor）搜索能有好的效果
-

$DR(q,\\cdot)$ 指的是由DR对q检索来的文档，这些文档来自模型 $ANN_f(q,d)$ 得来的index

这样的方法有几个特性：

loss如下

常规的方法，对 $D^-$ 的采样如下

在DR中，由于最优的负样本在重排序中不同于这些样本，所以还会随机采样一些样本加入，如下

由于大多数文档与查询无关，所以随机采样的也不太可能命中相关的负样本

在构建算法的时候，要考虑如何对齐训练和测试时的数据分布，即我们如何异步地学习它

ANCE使用了标准的DR模型和损失函数

唯一不同的是训练时的负样本

因为训练是随机的，encoder f会每步都更新，要更新ANCE的负样本（ $D_ANCE^-$ ），要以下两步

重构ANN index可以使用一些library，但是这样在推理的时候成本高昂，需要对他们re-encode。

所以这里的ANCE，只在每k个checkpoint后重构ANN index，即
- 1、取出最近的checkpoint $f_k$
- 2、使用 $f_k$ 推理整个语料库，此时的负样本是 $D_f_k-1^-$ ，来自 $ANN_f_k-1$
- 3、重构ANN index( $ANN_f_k$ )，得到 $D_f_k^-$

每个checkpoint中有m个batch，m为可调的超参；m=1时可以同步更新，但是太慢；m=∞时则不更新

有所提升

有较高的一致性

以上是关于Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval的主要内容，如果未能解决你的问题，请参考以下文章