自然语言处理一文读懂中国智能语音语义产业问题格局与趋势

Posted 2021-04-12 产业智能官

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了自然语言处理一文读懂中国智能语音语义产业问题格局与趋势相关的知识，希望对你有一定的参考价值。

来源：爱分析（ID：ifenxicom）

物联网智库整理发布

转载请注明来源和出处

------ 【导读】 ------

两项技术，两大应用，三类公司，三种模式。

语音识别作为人工智能发展最早、且率先商业化的技术，近几年来随着深度学习技术的突破，识别准确率大幅提升，带动了一波产业热潮。继科大讯飞、捷通华声之后，行业内又涌现出思必驰、云知声、出门问问等后起之秀，在教育、客服、电信等传统行业之外，开辟出了车载、家居、医疗、智能硬件等语音技术应用新天地。

与此同时，自然语言处理（NLP）作为人机交互技术的重要一环，也为此提供了助力。Siri的推出打开了语音交互的先河，不仅催生了一批语音语义创业公司，还激发了百度、搜狗等大型互联网公司在语音语义技术上的投入。

由于NLP和语义理解技术能够让机器理解人的意图和需求，并把相应内容反馈给用户，因此在客服行业得到了广泛应用，有效降低了人力成本，提高了企业运营效率。

那么，中国智能语音语义产业主要涉及哪些技术？技术发展水平如何？存在哪些问题？有哪些应用领域、玩家和商业模式？行业格局和未来发展趋势又将如何呢？本文将为您一一解答。

一、技术篇：语音识别和NLP技术仍不成熟

智能语音语义包含语音合成、语音识别和自然语言处理（NLP）三项主要技术。

语音合成技术发展最早，应用已较为普遍，除了合成音仍偏机械之外，基本不存在太大技术问题；语音识别在2012年卷积神经网络（CNN）应用之后，准确率大幅提升，已经在C端、B端得到了广泛应用，但效果和体验还不够理想；NLP技术虽然在搜索引擎中早有应用，但在人机交互领域仍属于浅层处理。

语音识别“鲁棒性“问题显著

在生物学中，有个术语叫做“鲁棒性”，是指系统在扰动或不确定的情况下，仍能保持它的特征行为。这一问题在语音识别领域也存在。

语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性，系统只能在一定限制条件下才能获得满意效果。在真实使用场景中，考虑到远场、方言、噪音、断句等问题，准确率会大打折扣。目前业内普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。

要解决语音识别鲁棒性问题，需要在技术和产品两方面进行优化。一方面，在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入，并结合后端语义，促进对上下文的理解，从而提升识别效果；另一方面，需要从产品设计上进行优化，比如通过进一步交互，使语音识别变得更为准确。

语义分析仍是浅层处理

NLP技术大致包含三个层面：词法分析、句法分析、语义分析，三者之间既递进又相互包含。

图：NLP分析技术

词义消歧是NLP技术的最大瓶颈。机器在切词、标注词性、并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。虽然系统会对句子做句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。

目前，机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，它属于比较成熟的浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还是需要依赖深度学习技术，通过大规模的数据训练，让机器不断学习。当然，在实际应用领域中，也可以通过产品设计来减少较为模糊的问答内容，以提升用户体验。

由于人工智能技术对数据依赖性极高，因此，这一领域的技术进步和产业化推进是一种协同关系——通过工程化的方法提升技术效果和体验，从而促进产业化应用，再根据实际应用中的数据和反馈，反过来推动技术实现突破。那么，智能语音语义在产业化方面都有哪些应用领域，又存在哪些问题？

二、应用篇：C端提升体验，B端提升效率

以问答和聊天为服务形式，智能语音语义在多个使用场景和行业领域都有广泛应用，我们可以简单从C端和B端两个方向分别来看。

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

图：语音识别/NLP技术应用领域

C端应用方面，主要用于移动设备、汽车、家居三大场景，用来变革原有人机交互方式；B端则针对垂直行业需求，提升人工效率，比如帮助医生做电子病历录入，或代替部分人力工作，比如回答大部分简单重复的客服问题。由于两大领域解决的问题不同，因此遇到的挑战也各不相同。

C端应用：变革交互方式，需求和体验是关键

智能语音为C端提供了一种全新的交互方式，但应用和普及又跟具体场景和需求挂钩。目前，三大场景中，移动设备中的智能手机，以及车内语音交互应用最为广泛。家居领域中，虽然各种家电企业也在广泛布局，但实际使用情况并不理想。

移动设备

智能语音语义在智能手机和可穿戴设备中的应用不尽相同。可穿戴设备虽然没有屏幕或屏幕较小，更适合语音交互，但大多（比如智能手表）都是非生活必需品，本身销量就很有限，再加上一些可穿戴设备并没有太多交互需求，因此实际应用量较少。

智能手机中的各类应用软件大多都配备了语音功能，但相比触摸和文字交互，使用率也不算高。很多人仍然没有经常使用语音的习惯，或者还没有使用语音的意识。究其原因，主要由于语音交互在效果和效率上都不够理想。

从效果上看，语音在开放场景下识别准确率并不高。对于用户来讲，结果不可预期，产生错误后纠错成本很高，所以宁愿打字。再者，用户在手机端对于打字和触摸已经非常习惯，因此缺乏改变习惯的动力。

从效率上看，语音在智能手机和各类软件上的应用主要以输入、搜索和调取服务为主，输入信息量并不大，而且大多移动应用都是基于触摸和文字做的交互设计，有文字推荐、按键选择等友好设置，因此原有交互方式本身已经非常便捷，语音交互效果不好，容易出错，并不能很好地提升效率。

目前，除了重度文字使用者，比如作家、记者、编辑等，对语音输入和转化有着刚性需求，其他人使用语音更多还是在无法打字或不方便触摸时，比如走路、开车等情况下。不过，随着语音识别和交互体验不断提升，会有越来越多的人在移动端使用语音。

汽车

由于人在车内双手和双眼被占用，而需求又十分明确，因此智能语音成了这一场景下最合适的交互方式。

智能语音在车内的应用主要以车载导航为主，辅以查询和用车。对于业界热炒的“以语音为入口连接各种服务，从而构建车联网生态”的畅想，目前看来还距离较远。核心困难在于，整个行业尚未找到车内场景下用户的刚性、高频需求。或许等到自动驾驶汽车普及之后，人的双手双眼以及大脑解放出来，才有条件搭建包含各种服务的车内生态。

对于涉足汽车领域的语音企业来说，当前最重要的是，把导航等刚性需求的体验做到位，再去考虑如何延伸服务。

家居

在家居场景下，智能语音应用主要围绕智能电视、音箱、家用机器人展开，解决的需求包括搜片、听歌、提醒、简单交互、应用调取等。

亚马逊Echo面世，带动了语音交互在家居领域应用的热潮。从2014年下半年至今，Alexa平台应用数从最初20多个增加到7000多个，并在过去半年内以每月1000个左右的速度增加。据CIRP报告估计，截止2016年11月，Echo累计销量超过510万台，2016年Q1-Q3共销售约200万台，较前三季度增长18%（2015Q2-Q4数据来源于Mary Meeker《2016互联网趋势报告》）。

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

图：亚马逊Echo销量估计

来源：MaryMeeker, 2016 Internet Trends Report

家居环境的天然特性使得语音成为最合适的交互方式，类似于Echo Alexa这样的平台将吸引越来越多的应用，不断丰富其产品功能，完整智能家居生态环境。随着用户习惯不断养成，这样的“智能家居控制中心”和“流量入口”有望快速普及，成为iPhone级爆款。不过，由于语音是一种全新的交互方式，除了技术所需的提升，各类应用在开发设计时还将面临用户体验和价值考量等全新挑战。

除了音箱、台灯等小家电智能产品，家用机器人也成了创业者争相押注的对象。拟生物形态智能产品的火热某种程度上承载着人类对于机器人的美好愿望，但创业者还是要从价值和实用性角度考量其产品形态的设计逻辑。最终哪种形态的智能产品会“笑到最后”，还得市场说了算，但语音会成为家居交互主流这一点，已经毋庸置疑。

值得一提的是，一些传统家电，如空调、冰箱、洗衣机、抽油烟机等，也开始配备语音交互功能，事实上并不理性。无论是控制开关、调节设置，还是对话沟通，从现有技术水平所能解决的需求和效率来看，都价值有限，或许等到语音交互成本下降，效率提升，才有可能在各种家电终端上普及。不过更多行业人士倾向于认为，智能家电的语音控制要么通过一个中枢设备来进行，要么通过房屋前装分体式设计来实现。

除了以上三大领域，商用服务机器人的逐渐成熟，有望为语音语义在商场、医院等各类服务场所开辟新的应用领地，点餐机、订票机等传统形态服务设备也将会以语音这种全新的交互方式服务大众，市场之广阔，可想而知。

B端应用：提升效率、解放人力，深耕垂直行业是根本

智能语音语义在B端的应用主要集中于客服、教育、医疗、旅游等领域。

客服

客服作为劳动密集型行业，对于一些大公司来说，成本依然很高。智能机器人客服的出现可以在很大程度上解决简单、重复性工作，帮助企业节省人工和坐席成本，提升运营效率。

由于客服问题主要聚焦在特定产品或单一垂直领域，因此需要企业拥有完整的结构化知识库，帮助机器人更好地查询和匹配问答内容。目前，按照行业平均水平，机器人客服可以解决70%左右问题，其余由人工处理。

机器人客服是主要战场。从成立较早的智臻智能（小i机器人）、捷通华声，到后来的图灵机器人、智齿科技、蓦然认知，以及从云客服转型智能客服的UDesk等，都希望在智能客服市场分得一杯羹。

由于业务量大、付费能力强，且知识库完整，金融、电信、航空公司等大型客户成了智能客服的主要应用群体。要更好地满足这些群体的需求，各家公司需要针对不同行业对算法和技术做相应的改进和优化，在实际应用中，用更大的数据量去提升产品体验和效果。

教育

教育领域，包括中英文口语评测，以及部分教育机器人的交互功能。科大讯飞作为智能语音和教育市场的龙头企业，通过为一些全国性考试提供技术支持，已经成为中英文口语测评方面的主要玩家。2016年底，科大讯飞与新东方联合成立东方讯飞，用新东方的数据+讯飞的技术，推动教育、培训、学习的智能化进程，智能语音测评技术有望在其中发挥重要作用。

在讯飞的广泛布局之下，脱胎于老牌语音公司思必驰，后被网龙（HK 00777）全资收购的驰声科技，也通过2B2C的模式，在培训、出版、考试服务、教育软硬件等领域持续发力，欲通过中高考口语考试解决方案、人机英语对话模拟考辅系统打入学校市场。

体制之外，以英语流利说为代表的口语评测应用也广受C端用户好评。依靠四年时间积累的3000万用户数据、500万小时练习录音，流利说于2016年推出可替代口语老师的自适应移动英语课堂“懂你英语”，加上辅助在线答疑及外教上课，有望领先一步实现自适应口语学习的商业化落地。

智能语音在教育领域的价值，一方面在于提高教师工作效率，另一方面在于帮助学生提升学习效果。通过大量语音数据的积累，并和后端大数据分析、机器学习相结合，智能语音有望在机器辅助学习和自适应学习方面发挥重大作用，为教育行业带来颠覆性变革。

医疗

医疗领域的应用目前主要是电子病历录入。医生在临床诊断时使用专业麦克风，可将诊断信息实时转化成文字，录入医院HIS（Hospital Information System）系统，方便后续查询和问答，提高医生工作效率。

由于专业性强、识别难度高，国外语音巨头Nuance最早主要是通过后台人工转写，而随着语音识别技术有了突破性进展，国内智能语音在国内医疗领域的应用也开始起步，讯飞和云知声是该领域典型代表。

讯飞正在和安徽省立医院、上交大附属第六医院南院以及北大口腔医院等合作，让医生使用定制麦克风，通过定向和降噪，先将语音转成文字，再用NLP技术对文字进行结构化处理（比如分段）,医生只需再做简单修改即可形成电子病历。此外，讯飞还在医疗影像翻译、医疗大数据分析方面展开布局，欲将AI技术广泛用于智慧医疗领域。

云知声的智能医疗语音录入系统也已经在协和医院、西京医院试点使用。同时，其医疗语音技术还上线了“平安好医生”20多个科室，让医生通过语音方式，更便捷地与患者进行线上沟通。

当前，语音在医疗领域的应用还处于语音转文字的初级阶段，在实际使用中的部分识别错误还需要医生手动修改。不过，以语音为入口所积累的大量医疗数据会在未来产生巨大价值。此外，随着医疗技术和语音分析技术的进步，通过声音诊断病情也将成为可能。南加州大学已经开发出一套新的机器学习工具，可以通过患者的特定语音特征，辅助医生诊断抑郁症等心理疾病。

金融

由于金融行业带有明显的客户服务属性，加上完整而庞大的业务及数据积累，因此成为智能语音语义的重要应用阵地。当前，一些商业银行已经通过使用语音识别技术，实现了语音导航、语音交易、业务办理等基础服务。

除了在线客服和呼叫中心，智能语音技术还被应用于语音/语义分析、大数据挖掘、身份认证等领域。捷通华声的智能语音分析系统就通过将语音数据转化为文本，而后建立语义索引、自动提取特征关键词，再对文本数据进行自动分类，生成结构化的客服大数据，为银行等金融机构提供客服质检、大数据挖掘与分析服务。

此外，随着声纹识别技术的进步，智能语音也将被应用于金融领域的身份认证，通过语音认证实现业务办理、支付等功能，未来有望和指纹、虹膜、人脸等其他生物特征识别方式一起使用。

除了上述四大领域，智能语音语义技术也逐渐渗透到安防、旅游、法律等行业，在效率效果提升、解放人力等方面发挥越来越重要的作用。

三、业务模式及行业格局篇：巨头优势明显，创业公司垂直突围

从业务和规模来看，语音语义类公司大致可分为三类：大型互联网公司、行业技术巨头、创业公司。

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

图：智能语音语义行业业务模式对比

大型互联网公司

由于NLP是搜索引擎的关键技术之一，因此百度、搜狗自然而然地成为头号玩家。两家公司依托其强大的搜索引擎和输入法应用，不仅将语音技术用于自身产品，还通过与行业其他技术和产品提供方合作，推出面向C端的产品和应用。比如，搜狗联合四维图新、飞歌等，推出全语音交互的车载导航产品，百度度秘携手小鱼在家，推出Duer OS以及家用视频对讲机器人。

由于互联网公司擅长直接服务用户，因此不会轻易涉足教育、金融等传统垂直行业，而是会把重心放在消费类产品和应用上，其模式主要包括2C和2B2C两种，最终都会落地到消费领域。

技术巨头

技术类公司中，科大讯飞一直以来都是做2B业务，向教育、电信、客服、政府等垂直行业输出语音合成和识别技术，经过十多年积累，讯飞已经积累了相当大的市场份额。近两年，讯飞一方面在智能车载、智能家居、智能机器人等新兴市场加大布局，另一方面也在努力向消费端倾斜，通过讯飞语音输入法、录音宝等产品打入C端市场，逐渐加强品牌认知度。因此，其商业模式既有2B、2C，也有2B2C。

技术类创业公司

其他技术类创业公司大多以2B或2B2C为主。比如，云知声的智能医疗业务完全2B，而智能车载和智能家居则是2B2C。值得注意的是，出门问问作为一家拥有智能语音语义技术的公司，独树一帜地选择了2C模式，通过智能手表、智能后视镜以及智能语音助手等产品和应用，直接切入消费级市场。

NLP技术公司也包括2C和2B两种模式。语音助手和聊天机器人等2C产品，无论是技术还是产品都不成熟，因此并不适合创业公司做。图灵机器人从最早的虫洞语音助手，转型到2B的语义平台和操作系统，也说明了这一问题。聊天机器人由于使用场景和需求尚不明确，目前仍是微软等大公司在探索和尝试。相较2C，2B对于创业公司来说是一条更现实的路，可以在技术发展早期段弥补产业薄弱环节。

整体格局

截止当前，在智能语音语义领域，除了讯飞拥有多年技术积累，在某些前沿技术上处于领先水平，其他互联网公司和创业公司在技术上并没有本质差别，技术本身已经不足以成为其核心竞争力，大多公司很难单纯依赖技术建立成熟可靠的商业模式。

要想更好地实现商业化，这些公司只能通过往上下游延伸来创造价值。上游可以把语音和搜索引擎结合起来，为垂直行业提供内容和服务，下游可以把语音和硬件产品相结合，依靠产品销售实现营收。哪怕是讯飞这样拥有前沿技术的大公司，也在向垂直行业和产品延伸，来挖掘新的利润增长点。

教育、金融、客服等领域需要和行业进行高度定制，大型互联网公司不会轻易涉足，因此会成为技术类公司的主要阵地。但是在智能车载、智能家居、智能机器人等2B2C甚至2C的领域，技术类创业公司则要面对互联网公司的直接竞争。因为，互联网企业具有天然的C端优势。

首先，无论是通过自有2C产品，还是借助合作，大型互联网公司依靠其庞大的用户量、大量真实场景下的数据积累、以及背后强大的搜索引擎和完整的知识库，可以极大提高语音识别在真实环境下的识别准确率，以及语义分析和理解能力。

其次，互联网公司拥有丰富的C端产品经验，加上对用户消费数据的迭代，能够更好地提升产品体验。对于体验至关重要的消费端，一旦产品或应用形成良好的行业口碑，快速的走量也会水到渠成。

当然，巨头的优势并不能阻挡创业公司的成长机会，通过深耕垂直领域和细分赛道，实现自我造血和快速成长，创业公司也有机会在这一新兴产业中逐渐做大。接下来，随着语音识别和NLP技术的逐步成熟，智能汽车、智能家居、智能机器人产业的日渐完善，定会有一批优秀的技术类公司在智能语音产业的浪潮中顺势而起。

如何评价自然语言语音交互系统？这里有五大行业实战指标供你参考

如何制定针对自然语言语音交互系统的评价体系？有没有通用的标准？例如在车载环境中，站在用户角度，是否有从客观、主观角度的评价指标？本文具体介绍了下面五大方面的行业实战评价指标：

语音识别
自然语言处理
语音合成
对话系统
整体用户数据指标

语音识别

语音识别（Automatic Speech Recognition），一般简称ASR，是将声音转化为文字的过程，相当于人类的耳朵。

1. 识别率

看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别。

实际工作中，一般识别率的直接指标是“WER（词错误率，Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

公式为：

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目

三点说明：

1）WER可以分男女、快慢、口音、数字/英文/中文等情况，分别来看。

2）因为有插入词，所以理论上WER有可能大于100%，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。

3）站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”，即“识别（正确）率等于96%”这种，实际工作中，这个应该指向“SER（句错误率，Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。不过据说在实际工作中，一般句错误率是字错误率的2~3倍，所以可能就不怎么看了。

2. 语音唤醒相关的指标

先需要介绍下语音唤醒（Voice Trigger，VT）的相关信息。

A）语音唤醒的需求背景：近场识别时，比如使用语音输入法时，用户可以按住手机上siri的语音按钮，直接说话（结束之后松开）；近场情况下信噪比（Signal to Noise Ratio, SNR）比较高，信号清晰，简单算法也能做到有效可靠。

但是在远场识别时，比如在智能音箱场景，用户不能用手接触设备，需要进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等。

B）语音唤醒的含义：简单来说是“喊名字，引起听者（AI）的注意”。如果语音唤醒判断结果是正确的唤醒（激活）词，那后续的语音就应该被识别；否则，不进行识别。

C）语音唤醒的相关指标

a）唤醒率。叫AI的时候，ta成功被唤醒的比率。

b）误唤醒率。没叫AI的时候，ta自己跳出来讲话的比率。如果误唤醒比较多，特别比如半夜时，智能音箱突然开始唱歌或讲故事，会特别吓人的……

c）唤醒词的音节长度。一般技术上要求，最少3个音节，比如“OK Google”和“Alexa”有四个音节，“Hey Siri”有三个音节；国内的智能音箱，比如小雅，唤醒词是“小雅小雅”，而不能用“小雅”——如果音节太短，一般误唤醒率会比较高。

d）唤醒响应时间。之前看过傅盛的文章，说世界上所有的音箱，除了Echo和他们做的小雅智能音箱能达到1.5秒，其他的都在3秒以上。

e）功耗（要低）。看过报道，说iPhone 4s出现Siri，但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒；这是因为有6s上有一颗专门进行语音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

以上a、b、d相对更重要。

D）其他

涉及AEC（语音自适应回声消除，Automatic Echo Cancellation）的，还要考察WER相对改善情况。

自然语言处理

自然语言处理（Natural Language Processing），一般简称NLP，通俗理解就是“让计算机能够理解和生成人类语言”。

1. 准确率、召回率

准确率：识别为正确的样本数/识别出来的样本数

召回率：识别为正确的样本数/所有样本中正确的数

举个栗子：全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象，其中18名为男性，2名为女性，则：

精确率=18/（18+2）=0.9
召回率=18/30=0.6

再补充一个图来解释：

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

2. F1值（精准率和召回率的调和平均数）

模型调优后追求F1值提升，准确率召回率单独下降在一个小区间内，整体F1值的增量也是分区间看（F1值在60%内，与60%以上肯定是不一样的，90%以上可能只追求1%的提升）。

P是精准率，R是召回率，Fa是在F1基础上做了赋权处理：Fa=（a^2+1）PR/（a^2P+R）

语音合成

语音合成（Text-To-Speech），一般简称TTS，是将文字转化为声音（朗读出来），类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音，都是由TTS来生成的，并不是真人在说话。

1. 主观测试（自然度），以MOS为主：

MOS（Mean Opinion Scores），专家级评测（主观）；1-5分，5分最好。
ABX，普通用户评测（主观）。让用户来视听两个TTS系统，进行对比，看哪个好。

2. 客观测试：

对声学参数进行评估，一般是计算欧式距离等（RMSE，LSD）。
对工程上的测试：实时率（合成耗时/语音时长），流式分首包、尾包，非流式不考察首包；首包响应时间（用户发出请求到用户感知到的第一包到达时间）、内存占用、CPU占用、3*24小时crash率等。

对话系统

对话系统（Dialogue System），简单可以理解为Siri或各种Chatbot所能支持的聊天对话体验。

1. 用户任务达成率（表征产品功能是否有用以及功能覆盖度）

1）比如智能客服，如果这个Session最终是以接入人工为结束的，那基本就说明机器的回答有问题。或者重复提供给用户相同答案等等。

2）分专项或分意图的统计就更多了，不展开了。

2. 对话交互效率

比如用户完成一个任务的耗时、回复语对信息传递和动作引导的效率、用户进行语音输入的效率等（可能和打断，One-shot等功能相关）；具体定义，各个产品自己决定。

3. 根据对话系统的类型分类，有些区别。

1）闲聊型

A）CPS（Conversations Per Session，平均单次对话轮数）。这算是微软小冰最早期提出的指标，并且是小冰内部的（唯一）最重要指标；

B）相关性和新颖性。与原话题要有一定的相关性，但又不能是非常相似的话；

C）话题终结者。如果机器说过这句话之后，通常用户都不会继续接了，那这句话就会给个负分。

2）任务型

A）留存率。虽然是传统的指标，但是能够发现用户有没有形成这样的使用习惯；留存的计算甚至可以精确到每个功能，然后进一步根据功能区做归类，看看用户对哪类任务的接受程度较高，还可以从用户的问句之中分析发出指令的习惯去针对性的优化解析和对话过程；到后面积累的特征多了，评价机制建立起来了，就可以上强化学习；比如：之前百度高考，教考生填报志愿，就是这么弄的；

B）完成度（即，前文提过的“用户任务达成率”）。由于任务型最后总要去调一个接口或者触发什么东西来完成任务，所以可以计算多少人进入了这个对话单元，其中有多少人最后调了接口；

C）相关的，还有（每个任务）平均slot填入轮数或填充完整度。即，完成一个任务，平均需要多少轮，平均填写了百分之多少的槽位slot。对于槽位的基础知识介绍，可详见《填槽与多轮对话 | AI产品经理需要了解的AI技术概念》。

3）问答型

A）最终求助人工的比例（即，前文提过的“用户任务达成率”相关）；

B）重复问同样问题的比例；

C）“没答案”之类的比例。

整体来说，行业一般PR宣传时，会更多的提CPS。其他指标看起来可能相对太琐碎或不够高大上，但是，实际工作中，可能CPS更多是面向闲聊型对话系统，而其他的场景，可能更应该从“效果”出发。比如，如果小孩子哭了，机器人能够“哭声安慰”，没必要对话那么多轮次，反而应该越少越好。

4. 语料自然度和人性化的程度

目前对于这类问题，一般是使用人工评估的方式进行。这里的语料，通常不是单个句子，而是分为单轮的问答对或多轮的一个session。一般来讲，评分范围是1~5分：

1分或2分：完全答非所问，以及含有不友好内容或不适合语音播报的特殊内容；
3分：基本可用，问答逻辑正确；
4分：能解决用户问题且足够精炼；
5分：在4分基础上，能让人感受到情感及人设。

另外，为了消除主观偏差，采用多人标注、去掉极端值的方式，是当前普遍的做法。

整体用户数据指标

常规互联网产品，都会有整体的用户指标；AI产品，一般也会有这个角度的考量。

1. DAU（Daily Active User，日活跃用户数，简称“日活”）

在特殊场景会有变化，比如在车载场景，会统计“DAU占比（占车机DAU的比例）”。

2. 被使用的意图丰富度（使用率>X%的意图个数）。

3. 可尝试通过用户语音的情绪信息和语义的情绪分类评估满意度。

尤其对于生气的情绪检测，这些对话样本是可以挑选出来分析的。比如，有公司会统计语音中有多少是骂人的，以此大概了解用户情绪。还比如，在同花顺手机客户端中，拉到最底下，有个一站式问答功能，用户对它说“怎么登录不上去”和说“怎么老是登录不上去”，返回结果是不一样的——后者，系统检测到负面情绪，会提示转接人工。

都说自己是AI公司，你家智能客服真的智能吗？

科技云报道

在刚刚过去的“双11”消费狂欢节中，巨大的交易订单数再创新高，集中式爆发的咨询需求背后，一个全新的潜力市场正在浮出水面。阿里机器人客服“小蜜”、京东“无人客服”、苏宁“苏小语”、网易“七鱼”等智能客服，成为了这场电商大战幕后的重要角色。显然，AI的战火已燃烧到每一个客服坐席之中。”

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

如今，这种令人恼火的状况正在变得好转。无论是打开淘宝、京东、携程、美团等众多生活服务平台，还是使用银行APP和微信服务号，智能客服系统已经做好了准备。当用户遇到困难时，还没开口问，智能客服就能提前给出一系列常用问题及其答复。

原因很简单，在消费者的问题中，有八成以上都是一些高度重复的问题，只要智能客服的知识库数据足够全面，智能客服对问题的解决至少能令一部分用户满意。相对于传统人工客服体验的不尽人意，智能客服在应对每天大批量的用户提问上，其服务效率已远超人工。

对于企业来说，智能客服的成本只相当于人工的10%，大规模使用智能客服系统，一年大约可以节省数千万元的成本。更不用说智能客服24小时在线，永不疲劳，情绪稳定，对于越来越看重服务体验的企业来说，无疑是一个巨大的福利。

智能客服真的智能吗？

被互联网巨头、大型金融机构和运营商大力拥抱的智能客服市场，正在变得炙手可热。据咨询公司艾媒咨询2015年的行业现状分析，中国客服市场的整体规模已经超过千亿人民币。与之相呼应的，是两年间突然涌现的大批智能客服和智能问答相关企业。

由此，隐藏于B端的智能客服市场迎来了新挑战与新变局：既有深耕智能客服领域多年的资深玩家，如小i机器人，也有TTS相关业务衍生而来的AI技术企业，如科大讯飞、捷通华声，还有从手机助手业务转型到智能客服领域的企业，如智齿、云问，以及大量的新兴创业公司等。当然，在这场技术盛宴中同样少不了BAT的身影，巨头们对改造传统企业客服市场展开了实际行动，接连推出自家的智能云客服产品。

面对市面上形形色色的AI技术公司，问题随之而来。各大服务商纷纷声称自己的智能客服方案技术领先，对外宣导的产品功能非常强大，但事实上真的如此吗？

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

看似简单的智能客服系统，其实背后有多种AI技术作为支撑，涵盖自然语言处理、数据挖掘、语音识别、图像识别、机器学习等多个领域，是基于文本、语音和视觉统一建模的深入交互。智能客服系统对多种技术的综合应用要求极高，因此实际业务的应用将真正考验服务提供商的能力。

伴随着智能客服大量涌入，不同服务商的实力差异也凸显出来。入门级的智能客服，大多数服务商都能提供，一般以云的方式交付，其特点在于对准确率的要求不高，能够简单帮助人工客服降低工作量和工作压力。虽然目前市场占有率较低，但因为产品和服务较为简单，其费用相对较低，对于部分企业来说也是一种选择。

如果企业需要AI能力更强，具有更高的语义识别准确率，更进一步，能够把智能客服引进来之后，构建一个大的AI平台，以客服中心这个企业最主要的信息来源部门为基础对业务底层进行全面的智能化升级，这就需要小i机器人等技术实力更强，行业经验和知识沉淀更多的大公司。

对于消费者而言，接入客服最核心的需求在于解决问题，沟通是否顺畅，客服是否理解用户的意图并给予准确的信息，都决定了消费者对服务的满意程度。

不难发现，在某些情况下消费者对智能客服并不买账，比如：用户在提出一些开放式问题时，有的智能客服只能给出简单的单轮回答，类似搜索查询功能，得出的答案机械呆板；当用户使用自然语言提问时，口语化的表达方式令很多智能客服并不能理解问题的涵义，答非所问，带来的体验是人机交互远不如人与人之间的交流来得顺利和深入。

如何选择一家靠谱的

智能客服供应商？

现实中的智能客服表现参差不齐，其原因在于要实现客服的智能化，语义理解功能是一项核心技术。

机器如何理解一个词语、一个句子、一段对话的含义，如何分析句子里包含的情感，都与之息息相关。这其中既有语言学的基础，也有AI算法和模型的技术要求，同时还会通过大型高质量的语料库建设，以及各种知识库的辅助，来提升智能效果。自然语言处理，尤其是语义层面的理解和分析，可以说是一个国际性的技术难题。

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

针对各家都宣称自己AI技术领先的智能客服企业，到底如何来判断其真正的核心技术水平和业务实力？我们可以从三个层面来观察：

首先，从技术实现方式看，多轮对话和场景处理能力最为直观地考验了AI的应用能力。目前大多数智能客服企业都是基于搜索的方式实现FAQ类单轮问答，并没有上下文和场景处理能力。

换句话说，如果消费者的提问刚好在提前设定FAQ的范围内，那么智能客服看起来一切正常。一旦问题超纲，或者需要应对的场景稍微复杂，那么这类智能客服就基本失效，回答得驴唇不对马嘴。

还有一部分企业宣称使用深度学习的方式进行问答处理，通过一定量的问答对训练后，系统就可以处理所有日常聊天类的对话。但在实际领域的应用场景下，由于深度学习下机器回复内容的不可确定性以及不可控制性，也决定了这类系统真的是只能应对“日常聊天”，而在商业环境下基本无法实际应用。

事实上，由于语言学本身的复杂性，想要在语义理解上取得比较好的效果，仅仅通过关键词搜索的方式或者使用深度学习都是不够的。

各家企业在具体实现时有自己的算法模型，抛开效果说模型孰优孰劣没有意义，但有几个特征倒是可以参考判断：是否支持全渠道多维度的交互框架？是否能解决多轮对话、动态场景、多意图理解等一些在人类对话中必须会碰到的问题？……总体一句就是否适配实际应用场景？

其次，从语料库的积累看，建立一个高质量、高扩展性的语料库，并在此基础上通过各种渠道获取尽可能多的行业问答知识，建立行业知识库，在某种程度上代表了AI企业在智能化方面的实力。

语料库是智能客服寻找答案的来源，语料库覆盖面越广意味着机器可以回答的问题越多。用户所提的问题的形式通常都是非标准化的，同一问题的问法多种多样。

比如，当用户想查询自己银行账户的余额，提问的方式可以是“我还剩多少钱”、“帮我查下账户余额”、“卡里有多少钱”......其表现形式可能是文字或者语音，因此必须将各种形式的问题归一化，以便同知识库中的标准问法相匹配，这就非常考验企业在语料库和知识库上的积累。

事实上，要提升在语义理解上的准确度，需要对基础的语言学和基础词类等进行复杂的梳理，同时依赖大量的高质量标注数据供机器来学习。而语料库和数据标注要达到满足实际应用的需求，这可能需要数百人花费数年的时间才能够积累完善。

这点在国内智能客服市场占有率最大的小i机器人身上体现最为明显。从2006年到2015年之前，在智能客服领域深耕的可以说只有小i机器人，因此小i机器人才拥有了全球最大的领域语义库、行业知识库。十多年行业项目的验证和优化，令小i机器人能够在智能客服的基础上为客户提供平台级服务，这种资源和经验的积累也为小i机器人的市场竞争建起了护城河。

最后，从核心技术壁垒看，AI企业的核心竞争力并不在于算法本身，而在于其工程化的能力，在于领域的积累、大量的实际项目和应用积累的行业经验。

自然语言处理、语音、图像、数据挖掘、机器学习等都是20、30年前的基础理论和通用技术，但是基础的技术和算法不能直接解决任何实际问题。实际应用场景下，具体应用是需要多种技术的综合应用形成有机的系统，从而实现组合式创新。

就好比软件，每个软件产品在具体的技术方面不会有太大差异，但是经受过足够多的行业积累和实施经验的软件产品，才是最终成功的软件产品，在AI领域也是如此。

目前国内的智能客服市场上，拥有多行业跨场景的应用实践且具备AI平台化能力的服务商屈指可数，基本集中在BAT等互联网巨头和小i机器人、科大讯飞等垂直领域AI厂商。在不同的场景下，各家在细分领域下的表现也各有不同。

对于创业型的公司来说，这种基于丰富的行业实践打磨出的系统化AI平台能力，可谓是一道坚固的护城河，很长一段时间内都难以超越。

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

来自智能客服领域的挑战

在业界人士看来，目前智能客服的市场仍处于萌芽期。虽然已经站在了风口，市场潜力巨大，但与此同时，萌芽期也就意味着整个产业还不够成熟，智能客服领域还面临多方面的问题。

一是，综合能力强的算法研究人员紧缺，特别是缺乏工程化能力强的人才。虽然企业可以通过大学和科研机构合作的方式缓解一定的问题，但是并不能解决根本问题。

二是，AI热带来了一定的投资泡沫，一部分互联网创业公司为了顺利拿到风投而夸大宣传，本来只能做到1分，很可能会被夸大成可以做到10分，通过讲故事让所有人都信以为真，引导市场对于AI产业产生过高的期望。

值得注意的是，1970年和2000年前后的两次AI低谷，都是因为外界对于人工智能的期望太高，技术无法满足，导致热潮过后大幅冷落，相关投资和经费急剧收缩，AI技术发展停滞。所以AI产业要健康发展，需要企业更加脚踏实地去解决实际问题。

最后，部分新兴创业公司为了进入市场，快速树立成功案例，以不计成本的方式恶意竞争，同样扰乱了整个行业的秩序。高成本的开发费用和低收益带来的差距越大，从长远看将导致行业的不良发展。

这个时代不缺乏能够实现算法或者开发原型的开发者，但是缺乏能够耐得下心对产品进行仔细打磨和优化的匠心精神。算法本身容易被超越，而整个有机系统的形成，不但需要大量长期持续的研发投入，也必须经历足够多的项目和真实应用场景的磨练。尽管诸如蚂蚁金服、小i机器人等企业在人工智能商业化落地方面已迈出了一大步，但整个人工智能行业距离真正崛起，还有很长的路要走。

【科技云报道原创】

【自然语言处理】一文读懂中国智能语音语义产业问题、格局与趋势

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。

详细介绍，访问官网：AI-CPS.NET

以上是关于自然语言处理一文读懂中国智能语音语义产业问题格局与趋势的主要内容，如果未能解决你的问题，请参考以下文章

一文读懂云计算大数据人工智能

从原理到应用落地，一文读懂推荐系统中的深度学习技术

再见，Python！你好，Go语言

综述 | 一文读懂自然语言处理NLP（附学习资料）

一文读懂人工智能与就业，抓住未来的饭碗