faq知识库中文本相似度模型训练方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了faq知识库中文本相似度模型训练方法相关的知识,希望对你有一定的参考价值。

参考技术A 对于faq问答中的形式为一个标准问题对应多个相似问题的知识库,直接使用学术界的方法句子pair的方法(句子1,句子2, 是否相似)不能很好构造训练数据集,其中的原因有

使用bert的相似度计算模型,其结果不收敛

在Reimers, N., & Gurevych, I. (2019, August 27). 《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的启发下,使用孪生网络来训练,保留最终的Bert 句向量模型,计算cosin相似度,其结果是收敛和有效的。

在一次偶然的机会,我尝试用了把标准问题作为一个类别,其对应的相似问题作为该类别下的语料,使用bert模型直接训练一个分类模型,最终保留bert句向量模型,计算cosin相似度。最终发现该方法比上述孪生网络的方法收敛速度更快,且相似度计算的准确率更高。

特定领域知识图谱融合方案:文本匹配算法之预训练SimbertERNIE-Gram单塔模型等诸多模型

特定领域知识图谱融合方案:文本匹配算法之预训练模型SimBert、ERNIE-Gram

文本匹配任务在自然语言处理中是非常重要的基础任务之一,一般研究两段文本之间的关系。有很多应用场景;如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等,但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配。

0.前言:特定领域知识图谱融合方案

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案:文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述,从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型,期间也涉及了近几年前沿的对比学习模型,之后提出了文本匹配技巧提升方案,最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主,之后会慢慢把项目开源出来,一起共建KG,从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。

0.1 前置参考项目

前置参考项目

1.特定领域知识图谱融合方案:技术知识前置【一】-文本匹配算法

https://blog.csdn.net/sinat_39620217/article/details/12

以上是关于faq知识库中文本相似度模型训练方法的主要内容,如果未能解决你的问题,请参考以下文章

过年刷千言数据集:文本相似度比赛

过年刷千言数据集:文本相似度比赛

基于Gensim的文本相似度计算

向量空间模型(VSM)计算文本相似度

文本相似度计算(一):距离方法

word2vec词向量训练及中文文本相似度计算