搜索-意图识别

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索-意图识别相关的知识,希望对你有一定的参考价值。

参考技术A 近段时间在研究搜索的相关技术,在工作中主要涉及到资讯搜索功能的实现。我们采用了elasticsearch搜索引擎,之前整理了两篇关于elasticsearch的文章: es基础 和 es进阶1 。由于需要对搜索功能进行迭代,所以笔者继续深入研究搜索原理和性能优化。本文主要研究以下几点:

一个搜索引擎的技术构建主要包含三大部分:
(1) 对query的理解
(2) 对内容(文档)的理解
(3) 对query和内容(文档)的匹配和排序

召回率(Recall)=检出的相关文档数/相关文档数,也称为查全率,R∈[0,1]
准确率(Precision)=检出的相关文档数/检出文档数,也称为查准率,P∈[0,1]
F值:召回率R和正确率P的调和平均值

搜索发展的阶段:

通过分类的办法将句子或者我们常说的query分到相应的意图种类
属于“对query的理解”部分
本质上是一个分类问题

S1. 用户的原始 query 是 “michal jrdan”
S2. Query Correction 模块进行拼写纠错后的结果为:“Michael Jordan”
S3. Query Suggestion 模块进行下拉提示的结果为:“Michael Jordan berkley”和 “Michael Jordan NBA”,假设用户选择了“Michael Jordan berkley”
S4. Query Expansion 模型进行查询扩展后的结果为:“Michael Jordan berkley”和 “Michael I. Jordan berkley”
S5. Query Classification 模块进行查询分类的结果为:academic
S6. 最后语义标签(Semantic Tagging)模块进行命名实体识别、属性识别后的结果为:[Michael Jordan: 人名][berkley:location]:academic

意图的划分问题:技能/领域

用户查询的需求分类:
(1) 导航类
(2) 信息类
(3) 事务类

概念介绍:
用户与搜索引擎的一轮完整交互过程称为一个Search Session,在Session里提供的信息包括:用户查询词(Query),用户所点击的搜索结果的标题(Title),如果用户在Session期间变换了查询词(例如从Query1 -->Query2),则后续的搜索和点击均会被记录,直到用户脱离本次搜索,则Session结束。

1.词表穷举法/规则解析法
2.基于查询点击日志 -- 一般一条搜索日志记录会包括时间-查询串-点击URL记录-在结果中的位置等信息。
3.机器学习方法(基于规则挖掘,基于Bayes、LR、SVM等传统分类模型)--分类问题
query的分类
eg:识别每个实体词的属性,去索引里面精确匹配对应的字段,从而提高召回的准确率
4.基于神经网络(深度学习)--FastText

1、输入不规范,前文中已有介绍,不同的用户对同一诉求的表达是存在差异性的。
2、多意图,查询词为:”水”,是矿泉水,还是女生用的化妆水。
3、数据冷启动。当用户行为数据较少时,很难获取准确的意图。
4、没有固定的评价标准。pv,ipv,ctr,cvr这种可以量化的指标是对搜索系统总体的评价,具体到用户意图的预测上并没有标准的量化指标。

query改写,类目相关,命名实体识别和

query改写包括:
query纠错 -- 如果搜索引擎返回的是空结果/或者结果过少,此时应该需要增加拼写纠错的处理

eg. “Michael Jordan berkley”和 “Michael I. Jordan berkley”
(1) 同义词扩展表
(2) 使用词向量进行同义词拓展
(3) 如果query没有相应返回,则根据用户历史数据拓展原query
query删除 -- 判断丢弃哪个/些词 (实体识别)

搜索意图识别浅析
信息检索中的各项评价指标
如何使用padlepadle 进行意图识别-开篇
Turn Chinese natural language into structured data 中文自然语言理解

1.1基于知识图谱的项目实战:优酷搜索泛查询意图优化

NLU的技术实现主要分为在线识别和离线数据挖掘两块。

1.在线识别

NLU的在线识别技术栈如下图所示,共由下述2个部分组成:

  • 第一个部分是Slot Filling(成分分析),负责对query进行实体识别和槽位抽取;

  • 第二部分Inention Detection(意图识别),根据提取的槽位进行意图的判定(目前主要是宽泛意图)。

以上是关于搜索-意图识别的主要内容,如果未能解决你的问题,请参考以下文章

扫描/识别 NFC 意图时防止提示音

Alexa无法识别意图

HarmonyOS之AI能力·助手类意图识别

HarmonyOS之AI能力·IM类意图识别

TensorFlowCharCNN文本意图识别学习心得

从语音识别意图记录/保存音频