faq知识库中文本相似度模型训练方法

Posted 2023-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了faq知识库中文本相似度模型训练方法相关的知识，希望对你有一定的参考价值。

参考技术A 对于faq问答中的形式为一个标准问题对应多个相似问题的知识库，直接使用学术界的方法句子pair的方法（句子1，句子2，是否相似）不能很好构造训练数据集，其中的原因有

使用bert的相似度计算模型，其结果不收敛

在Reimers, N., & Gurevych, I. (2019, August 27). 《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的启发下，使用孪生网络来训练，保留最终的Bert 句向量模型，计算cosin相似度，其结果是收敛和有效的。

在一次偶然的机会，我尝试用了把标准问题作为一个类别，其对应的相似问题作为该类别下的语料，使用bert模型直接训练一个分类模型，最终保留bert句向量模型，计算cosin相似度。最终发现该方法比上述孪生网络的方法收敛速度更快，且相似度计算的准确率更高。

特定领域知识图谱融合方案：文本匹配算法之预训练SimbertERNIE-Gram单塔模型等诸多模型

特定领域知识图谱融合方案：文本匹配算法之预训练模型SimBert、ERNIE-Gram

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题，比如信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配。

0.前言：特定领域知识图谱融合方案

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案：文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述，从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型，期间也涉及了近几年前沿的对比学习模型，之后提出了文本匹配技巧提升方案，最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主，之后会慢慢把项目开源出来，一起共建KG，从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。

0.1 前置参考项目

前置参考项目

1.特定领域知识图谱融合方案：技术知识前置【一】-文本匹配算法

https://blog.csdn.net/sinat_39620217/article/details/12

以上是关于faq知识库中文本相似度模型训练方法的主要内容，如果未能解决你的问题，请参考以下文章

word2vec词向量训练及中文文本相似度计算