过年刷千言数据集:文本相似度比赛

Posted yealxxy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了过年刷千言数据集:文本相似度比赛相关的知识,希望对你有一定的参考价值。

过年刷千言数据集:文本相似度数据集

1.比赛信息

“千言数据集:文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务,这个榜单在2021年出提出。刚好过年有时间刷一下这个任务,由于时间有限,且已经有相当多的提交,最后在假期结束取得15/2000的成绩。

代码地址:https://github.com/xxyliuyang/qianyan_similarity
依赖: allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍,这里介绍三个数据比较大的问题:千言数据集:文本相似度述

  • 问题一:领域数据:BQ Corpus是金融领域相关的数据。
  • 问题二:文本质量: PAWS-X的输入文本质量不高,存在很多中英混合句子,英文大部分是英文实体词汇。
  • 问题三:label质量:观察部分数据,标签存在标注错误的情况。

3. 模型细节

3.1 数据增强:

交换句子度,将训练数据翻倍。

3.2 模型:

bert构建句子对模型,使用[CLS]的输出的向量做二分类。

3.3 训练:

使用R-drop正则方法,其训练逻辑类似于对抗训练。

3.4 模型融合:

使用robert,albet,macbert分别训练,然后将输出的概率求平均。

其他:可以提高的点 或者 没有用尝试。

还有很多方法没有尝试,读者可以自行尝试,进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练(self-training的思想):

条件是获取相关数据。

3. simCSE的训练:

尝试simCSE的训练,但是没有收益,猜测是因为simCSE提高句子embedding的方法,然而这个任务是句子对的任务,两个任务的出发点有区别。如果有更好的解释,欢迎评论。

4.stacking模型融合:

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

以上是关于过年刷千言数据集:文本相似度比赛的主要内容,如果未能解决你的问题,请参考以下文章

过年刷千言数据集:文本相似度比赛

用于多句子文本相似度的通用句子编码器

faq知识库中文本相似度模型训练方法

如何抓取语义相似的句子

在大型句子数据集中找到最相似的句子

LSTM 句子相似度分析