售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!
Posted AI科技大本营
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!相关的知识,希望对你有一定的参考价值。
实现人与机器的自然交互,一直以来都是全世界人类的共同愿望,无数科学家倾尽毕生精力致力于实现这个目标。语言,作为人与外界交流最有效的工具,成为机器智能的重点研究对象,而对话型机器人则成为实现人机交互最早的突破口。
从图灵测试开始,对话机器人探索从未停
自计算机科学和密码学的先驱阿兰·麦席森·图灵于1950年提出图灵测试,人们对于让机器具备人类智能的探索就从未停止。如1966年MIT开发的精神治疗师Chatbot Eliza,1995年基于模式匹配的NLP chatbot Alice,2011到2012年兴起的Siri、Watson、Google Now,2015年声名鹊起的Amazon Alexa、Microsoft Cortana、微软⼩冰,以及2017年开始掀起国内聊天机器人热潮的百度度秘、阿里小蜜、腾讯云小微、小爱同学、天猫精灵等等,都是对话机器人不断成熟和商业化探索落地的成果。
在商业化和落地上,在线智能客服是最早应用对话机器人的应用领域之一。国外应用对话机器人的时间较早,但由于国内电商业更加发达,所以国内在智能客服机器人上的应用范围更加广泛,也更加成熟,智能客服商业化产品五花八门,在医疗、教育、智能汽车等众多行业得到大量应用。
易聊科技的智能AI客服,也是其中的佼佼者。
国内最早入局的一批人
易聊科技是国内最早一批入局智能客服领域的科技企业,2014年从在线客服SaaS与定制起家,如今在医疗、教育等20多个行业领域深耕智能客服多年,在国内售前机器人市场份额已超过80%,转化率也处于行业较高水平,如在医疗领域,细分场景的转化率分别可以达到:整形35%,男科30%,口腔(齿科)30%,白癜风35%,精神科38%;在教育领域,细分场景转化率可达到:资格证类55%,职业技能60%,学历提升58%。
2014年,国外的聊天机器人话题已经相当火热,亚马逊Alexa,微软Cortana、小冰等聊天机器人经常出现在媒体头版头条上,而在国内百度、阿里、腾讯等国内科技巨头开始大面积布局聊天机器人之前,易聊科技就已经率先一步入局售前智能客服领域,占得先机,先后推出两款智能客服产品:Easy Liao 智能在线客服系统(IM)和Each Bot AI智能接待机器人。
售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超
在广阔的客服机器人领域,易聊选择了市场应用更加广泛,难度也相对更高的售前机器人阵列。Easy Liao 智能在线客服系统提供售前数据打通、线索跟进控制和售后客户管理的传统客服系统解决方案,Each Bot AI则是基于客服聊天大数据作为深度学习语料, 应用自然语言理解、神经网络等人工智能技术为核心的商业应用的智能营销服务机器人。
EachBot 机器人运营示意图
在这里,不得不提一下售前和售后机器人之间的差异。从技术角度来说,两种机器人的侧重点和实现难度差别是非常大的,简而言之,售前机器人的逻辑控制较后者更为复杂。这也意味着做好售前机器人难度更大。
易聊售前机器人与售后机器人的主要差别,在于以下几点
1. 通常是多轮对话,对话更具深度。售前场景不仅仅是对单句问题的解答,相较而言,售后面对的访客,往往已经对问题有一定认识,能够提出较为明确的问题,并具有组织,售前访客很多情况下不知道要问什么问题,或只能提出模糊的问题,或最初提出的问题并不能满足自身需求,所提问题只是一系列问题的开始,售前机器人需要引导对话,让访客不断明确问题,因此并不是解释一件事情,而是协助访客发现问题再做解答。
2. 多轮对话内在逻辑必须紧密,无论话题是否一致。售前机器人必须把控对话实质,以自身目标为导向,对话始终围绕主题,或暂时看似偏离主题,但内在逻辑不变,因为话题的变化也是为最终达成目标。
3. 机器人的反应要求更迅速。售后场景下,访客解决问题的意愿明确、强烈,因此对售后反馈的响应速度相对宽容,而售前场景下,访客的意愿模糊,如果响应不及时,流失严重。
因为最早有效进入售前机器人领域,易聊科技在售前机器人领域里形成了一定的技术和产品壁垒。在王函石看来,AI三要素为算法、数据、算力,其中算法和数据的结合非常紧密,数据很大程度上决定了算法的效果,这也是大数据时代的特征,由于易聊先行获得客户数据,第一时间对算法、模型、知识库进行了优化,因此其算法的性能随之提高,客户体验的提高带来了更多的客户和数据,进而为算法的提升提供更大的空间。在这种正向循环下,客户对AI产品的应用就是对AI产品性能的优化,这种AI技术上的马太效应,必然使易聊与潜在竞品之间拉开距离。
另一方面,当越来越多玩家进入智能客服领域时,很难单纯通过大规模数据的后发优势打破先入者的优势壁垒。
因为算法效果虽然基于数据,但并不能完全自动化将数据转化为知识和智慧,单纯依靠数据和算力很难解决售前问题。售前机器人的逻辑控制较售后复杂,多轮对话造成在对活进入较深层次后所需数据不足,即存在数据稀疏问题,需要人类专家知识,涉及到对客户价值的理解,在这一点上我们的运营部门有丰富的经验。
这种细分条件后的数据不足问题,大数据时代仍然普遍存在,为提高效果,数据细分是必然,而相对数据不足,也成为必然。纯粹从理论上讲,在不考虑持续提升效果的情况下,即静态地看,数据、算力才有足量的可能。算法研发的一大目标是无限接近全自动解决问题,路径则是利用算法不断提升人工效率,减少人工。——易聊首席科学家 王函石
技术“尖兵团”攻克核心算法模型问题
如何搭建这个技术挑战更大的系统,是易聊技术团队的任务。在CTO邴立新的带领下,由自然语言处理科学家和机器学习算法研究员组成,拥有十三年即时通讯技术的团队,与融合最新AI技术的团队一起攻克核心算法模型的问题。
市面上智能客服产品不少,但真正“智能”,能够达成目标的产品就少之又少了,问题就在于核心的系统架构上。易聊的智能客服促成的成交率在60%以上,之所以能够做到比较自然地引导用户达成交易,与其独特的系统架构与核心AI算法创新有关。
系统架构
据了解,易聊的EachBot AI基于Python语言开发,使用了TensorFlow引擎,应用了Apache Spark大数据平台。自然语义理解和行业知识图谱可以实现毫无违和感的话术合成、词义消岐、多轮对话、上下文理解、情绪识别,以及长短时间记忆网络、自动归纳、特征值、词语省略与语言行为等功能,这使得机器人能够更加灵活、全面、精准、智能地处理访客信息。而利用Python简单高效的处理逻辑,灵活多样可移植和丰富的可扩展性,易聊机器人平台更加简洁、清晰,能够轻松整合其他模块,不断完善自己。
易聊即时通讯的底层系统架构,则采用了J2EE体系结构,比业界通用的.NET/php更加灵活、稳定。运行环境为Unix/Linux,比Windows更加稳定、安全。在通信安全上采用客HTTPS及SSL加密,安全性更强。
即时通讯的底层系统架构
核心算法创新:意图识别、对话控制及知识库构建自动化
意图识别正确率达到98%以上
在核心算法上,易聊智能客服系统的很多创新使得效果大幅提升,如采用了意图识别、对话控制及知识库构建中的自动化方法。
通俗地说,意图识别指的就是分析访客话语,抽取特征(语义标签),识别访客意图和信息;对话逻辑控制,就是根据意图、访客信息,在场景间转换,特征迁移,根据更加细节的特征以及规则产生式,生成回答,该过程形成图状结构,控制对话流以导向既定目标,比如索联。
目前在业界,模型方法主要应用在意图识别部分,提高识别正确率是模型优化的目标。而易聊售前机器人经过6个大版本的迭代,识别正确率已经从86%提升到98%以上,在部分场景下接近100%的识别正确率。
结合BERT等预训练模型,多项核心算法创新
易聊智能客服的机器学习过程基于多种训练模型,从较简单的线性判别模型(如LinearSVC)、集成判别模型(如xgboost),到较为复杂的深度神经网络(DNN,如Transformer),动态贝叶斯网络(DBN,如耦合马尔科夫链),结合Bert等预训练语言模型,依存文法分析、语义角色分析等计算语言学方法,并独创了一些模型算法。
当然,模型算法上的创新是易聊客服机器人性能大幅提升的关键,易聊自研了如适用于语言文本的图聚类算法,以及融合多种语言特征的分层判别算法,在效果提升的同时,把时间、空间复杂度控制在较低水平,并根据模型占用算力的差异,采用分层识别架构,降低了算力代价和对数据规模的要求。相较于早期简单识别方法,新方法在大幅提高识别精度的前提下,识别速率几乎没有下降。
自研知识库构建自动化方法
另一方面,从更加宏观的AI角度看,售前机器人其实是一个典型的专家系统,包括了知识库和推理逻辑,而专家系统是知识工程的一种应用形式,因此售前机器人的技术特点、难点与知识工程相似,除机器人运行过程中的意图识别和对话逻辑控制外,即除了运用知识外,真正的难点在于如何获取知识,构建知识库。
客服场景下的对话是不断实时更新的,因此医疗需要构建的是一个产生式多轮对话控制知识库,自2014年以来,易聊积累了海量对话数据,系统需要打标的有超30亿条对话记录,超5亿通对话。如此大规模的对话数据,需要更便捷地被构建到知识库中。
为此,易聊放弃了费时费力的纯人工构建方式,自研了知识库构建半自动化方法,如自动索联判别、话术抽取、QA提取等,可以在不增加人力的前提下大幅提高构建效率,并提供了自主搭建功能和预制模板,将构建知识库的功能开放给客户,以提高构建知识库的效率和效果,满足客户个性化需求。目前,易聊表示正在研发更少人力的自动构建知识库方法,包括从客户提供的数据中自动提取出结合上下文的成对问答并直接用于推理,目标是逐渐逼近全自动方式,以极少的人力完成知识库构建。
易聊售前机器人产生式知识库(目前)包含了:
1、1000000+语义标签(特征,分为100+版本、1000+维度);
2、近60000场景;
3、近1000000迁移产生式。
深耕医疗与教育行业7年多,易聊在这两大领域积累了行业知识库,这些知识语义消歧和语义填充,让机器人更好地了解用户的意图,提升转化率。
值得注意的是,易聊智能客服还使用了多种机器学习技术,如主动学习、小样本学习、迁移学习、强化学习等。
这些技术都是什么概念呢?我们举例简单解释一下。首先,当数据进入学习系统后,系统会对数据做一次自动标注,如果标注正确率不够高,则接入训练模型,算法从中抽取出置信度较低,接近判别边界的数据,然后交给人工标注后再标注,之后再进行学习。这其实就是一个主动学习的过程,算法自动筛选出可靠性差的标注数据,交由人工更正,反复触发这个机制,就可以得到更加高质量的标注数据,提高系统判别精度。
小样本学习方面,系统首先使用启发式规则做标注,结合主动学习过程,由人工标注纠正标注质量差的样本,最终基本上可以达成足量样本学习的目标。模型的迁移学习能力指,所训练出的模型,在实际数据与开发数据存在差异时仍然可以保持其处理效果。
强化学习原理
除此之外,易聊表示目前还在研发适用于对话逻辑控制的强化学习方法,即通过达成的处理结果反推处理过程及其组合的优劣,以寻找最优的处理过程,这种优化机制非常适合售前对话型机器人训练,因为售前场景下,虽然容易判断是否达成最终目的,比如判断是否获得线索,却很难评判中间的每句对话及处理过程在达成最后目标的角度上是否合理。
售前机器人计算逻辑的革新
对于售前机器人,王函石还从计算逻辑层面给出了一个全新的思路。他认为,用更加现代的AI角度来看,售前场景可以视为机器人(座席)与访客2个智能体间的博弈(并非零和博弈),因此可以采用智能决策理论对传统计算逻辑重构。智能决策基于以效用为基础的经济学理论,在AI复现此理论的过程中,采用了贝叶斯网络及效用函数,并以期望效用最大化作为计算模型的优化目标,其中贝叶斯网络通过对话数据计算在特定上下文下不同应答的条件概率,即对客观世界进行建模,而效用函数刻画对话结果的优劣,即对客户主观价值进行建模,两者结合后最大程度的贴合营销场景。
在优化模型的过程中,易聊客服机器人系统将采用主动学习方法对容易偏离标准(容易出错)的样本进行重点学习,采用强化学习,以对话结果为出发点,逆向追踪对话过程中的不同环节并加以奖惩,以结果为导向优化过程。
相较于原来计算逻辑和知识库构建方法,新的计算逻辑因为基于最本质的决策过程,是不限行业的通用方法,不局限于售前或售后的对话场景,适应范围提升至全领域,既适应于新客户、新行业的问题,也可以用于营销的其他环节。
在这些AI技术的加持下,易聊客服机器人系统逐步克服AI领域的很多技术“顽疾”,如模糊性问题、情绪识别、内在表示、潜在标识等。
对话机器人的未来:智能决策
目前,易聊售前机器人的知识逻辑已支持单次对话能力达到30-50轮,接下来,易聊表示还要在对话逻辑上进行革新,最大的变化将是要引入智能决策能力。因为对话控制主要是在知识库上进行推理,实际上是条件判断在场景下的迁移,未来引入智能决策后,就不仅可以根据规则判断是或不是,还可以判断概率有多大的问题,用强化学习的方式从效率进行反推,找出概率背后的问题所在,实现对话的结果最优,是易聊智能系统下一个阶段的目标。
回顾从第一代自研系统到如今多次系统更新迭代,易聊系统认为智能机器人最重要的就是逻辑,而逻辑的核心部分就是知识,而现在知识构建过程中,大多数厂商其实人工参与量非常大,而因为易聊入局较早,前期工作充足,所以在整个行业中具有先发优势。提高构建速度,就占据了高地。
而在竞争越来越激烈的智能客服市场中,要想维持这个壁垒,创造更多的壁垒,就需要更多的创新。
未来,真正的智能对话机器人应该是更灵活的,目前机器人目的比较单一,以后需要更加智能,完成更多样化的任务,达到强人工智能的水平。——易聊科技CTO 邴立新
大数据和云计算时代的到来,让对话机器人正在经历着技术与应用、商业化的深刻变化,也让实现更加智能的人机交互系统的目标变得前所未有的清晰。让我们一起期待,下一次对话机器人质的蜕变!
以上是关于售前比售后机器人控制逻辑更复杂,仅凭大规模数据后发优势难赶超!的主要内容,如果未能解决你的问题,请参考以下文章