全球软件大会华为前端工程师分享：华为云官网的智能化实践

Posted 2021-07-06 华为云

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了全球软件大会华为前端工程师分享：华为云官网的智能化实践相关的知识，希望对你有一定的参考价值。

摘要：在第七届全球软件大会上，华为软件开发工程师禹继波和开发者聊了聊华为云官网的智能化实践，主要集中在内容运营的内容生产、内容解析、内容质检、内容分发、内容消费和用户反馈等6个流程，以及在此过程中遇到的业务痛点。

本文分享自华为云社区《华为云官网智能化实践的五大关键举措【全球软件大会技术分享】》，原文作者：技术火炬手。

互联网每时每刻都在产生海量的内容，来自睿亚的报告显示：中国互联网60秒内产生了420万条语音消息，830万条共享视频，416万次搜索查询，165万次微博访问。

面对如此多的内容，我们应该如何做好网站内容运营呢？

在第七届全球软件大会上，华为软件开发工程师禹继波和开发者聊了聊华为云官网的智能化实践， 主要集中在内容运营的内容生产、内容解析、内容质检、内容分发、内容消费和用户反馈等6个流程，以及在此过程中遇到的业务痛点。

并着重介绍了华为云如何利用AI算法和模型提供自动化的能力，降低人力成本，提升了内容质量和内容分发的效率。

如何判断内容质量，高效内容分发的关键又是什么？

数字化时代，流量是网站内容运营的关键，而高质量的内容和高效的内容分发带来的良好体验是流量提升的基础。一个负面的例子是印度媒体在报道性侵事件中误用了普京的照片，正面的例子是新闻、电商、视频类网站利用推荐和搜索进行内容分发。

那华为云官网作为内容网站是怎么做的呢？

首先介绍下华为云内容生命周期和内容运营的流程，华为云官网内容运营共分为6个阶段：内容生产、内容解析、内容质检、内容分发、内容消费和用户反馈。官网的页面、文档、音视频图片首先进行内容解析和理解，通过内容审核后由运营人员分发到现网，最终用户在华为云官网进行内容消费后将相关意见反馈到内外部平台。

在内容运营过程中，我们的痛点包含以下部分：

大量的多媒体（音视频、图片等）内容需要深入分析语义，才能判断内容质量，进行有效的分发，耗时耗力；
内容发布数据量大，更新频繁，大量的内容质量检查消耗的人力大，效率低；
传统的运营配置的方式，不能满足复杂客户群体的个性化需求，容易降低用户兴趣，导致用户流失；
最终用户的访问体验，不能得到有效的采集、分析和闭环，不利于产品体验的快速改进。

针对以上问题我们主要通过智能化的方案来解决各个阶段的业务痛点，包括：

在内容解析环节，利用OCR、ASR、NLP等技术自动提取内容的结构化信息，降低人工成本；
在内容审核环节，利用NLP技术和华为云Moderation服务，进行机器审核；
在内容分发环节，利用内容的结构化（TDK、标签、类别等）信息，以及智能推荐、智能搜索等相关技术提升内容分发的效率和准确性，提升用户体验；
在用户反馈环节，利用NLP相关技术进行情感分析和声音分类，及时处理、闭环，并持续形成产品改进建议。

下面详细介绍华为云智能运营相关实践。

官网智能化运营实践的关键举措

首先介绍一下华为云官网智能运营的整体架构，架构比较简单，包含几个关键分层。

首先最底层为基础服务层，我们所有业务都是基于华为云服务构建，包括AI相关的OCR、ASRC、NLP、RES、ModelArts，大数据相关的DLI、MRS等，以及基础的SQL和NoSQL存储服务；在基础服务层上面的是核心数据层，包括用户画像、行为数据，物品信息等数据；中间层是我们的的特征工程和算法模型层，算法模型主要集中在NLP、智能推荐、智能搜索相关算法。再上层我们构建了服务组件用于支撑不同的业务场景，包括画像和标签组件、策略管理排序组件、AB测试和日志采集组件等；最顶端的上层应用场景主要有千人五面、推荐、搜索、舆情和智能问答等。

我将重点介绍智能化实践的一些关键举措。

关键举措1：内容解析

在内容解析阶段，我们利用华为云的OCR和ASR技术提取图片和音视频的文本，便于下一步自动化的内容审核；同时我们利用NLP相关技术提取文本的关键字、摘要、标签、分类、主题等结构化信息，用于搜索引擎优化和内容分发阶段的模型训练。

关键举措2：内容质检

内容经过文本提取和语义理解后，我们借助自动化手段进行内容质检，包括文本纠错、内容审核和规范性检查。其中文本纠错提供了基于拼音的纠错、基于N-Gram子串的接错、基于语言模型的纠错的能力，因为业务需要定期的更新关键词、语料，并进行模型定时更新。

内容审核对接了华为云的Moderation服务，它具备文本、图像、视频的审核能力，业务只要定期的更新敏感词库即可。除此之外，还有规范性检查，包括404死链、TDK信息、货币单位等，采用的方案主要是爬虫服务和规则引擎。

关键举措3：内容分发-智能推荐

在内容分发阶段，我们主要引入了智能推荐和智能搜索，智能推荐是通过智能化的手段，基于用户物品画像，以及用户行为预测用户兴趣，实现内容找人、精准推荐，提升转化率。

华为云智能推荐的系统架构如下：基于离线的OBS数据，采用DLI的离线处理抽取用户物品画像、用户行为信息，采用DLI的离线处理进行特征工程、召回和排序模型训练。训练后发布到提供在线推理能力的ModelArts平台。

同时我们也支持实时的推荐能力，业务通过DIS通道上传用户和物品信息并实时更新用户和物品画像，再由DIS通道对接实时行为，进行用户兴趣标签更新，并召回实时推荐结果集。最后，用户访问官网页面时，通过请求ModelArts接口放回排序后的推荐内容。

关键举措3：内容分发-推荐算法

业界的推荐算法相对已经比较成熟，我们采用了常用的召回和排序算法，召回部分包括：协同过滤和兴趣匹配，排序部分主要采用了LR和DeepFM。其中LR的优点是模型简单、高效、计算量小，缺点是无法处理多个特征之间的关系。DeepFM的优点是：融合了低阶和高阶的特征，特征越多越精准。

最终，智能推荐为业务带来不少提升效果，比如内容的分发效率由小时级提升到分钟级，内容推送的覆盖率提升到90%+。

除此之外，官网产品、活动推荐的点击率、注册和购买转化率以及社区首页博客推荐的点击率都得到了提升。

在内容分发的智能推荐上，我们也总结了几点心得体会：

对于数据量小的业务场景，优先选择模型简单、解释性强的算法上线，快速优化并通过AB测试快速验证算法的效果；
充分利用用户的近线和搜索行为，因为近线代表着用户的实时兴趣，搜索一般能够代表用户的内容述求，对于业务的指标提升会比较好；
在推荐场景中，没有任何算法是万能的，需要结合场景、结合用户和业务特点和数据分析的结果，选择合适的算法。

关键举措4：内容分发-智能搜索

智能分发另一个关键措施是智能搜索，从数据统计和右侧热力图分析得出，用户搜索结果更加关注结构化的卡片部分，以及排名靠前的文章，越往后关注度越低。因此我们搜索优化主要集中在以下几个方面：1. 卡片智能召回；2. 搜索召回优化；3. 搜索排序优化。

卡片智能召回

在卡片智能召回部分，我们主要利用FastText模型，预测用户搜索词对应的卡片类别（文本分类）。其中输入层是组成query的单词的向量，输出层是softmax层，主要输出预测的卡片和概率。

同时，我们对隐藏层做了结构优化，原结构采用叠加平均的方式，虽然计算速度快，但是存在信息丢失，因此将隐藏层改为拼接后全连接embedding的方式。

基于深度语义模型RNN-Attention-DSSM的召回优化

我们利用RNN-Attention-DSSM模型进行搜索召回优化，传统的ES查询都是基于关键词匹配的查询召回，对于关键词不匹配但是语义一致的无法召回。DSSM模型通过Query和Doc的海量曝光点击日志，用DNN把Query和Doc表达为低维语义向量，再通过 cosine距离来计算两者的语义向量距离，最终训练出语义相似度模型。RNN-Attention-DSSM则是对DSSM的进一步优化，通过RNN和Attention机制考虑了语句的上下文特征。

RNN-Attention-DSSM模型如下：最上层是典型的DSSM层，根据查询和正向、负向文档的向量距离计算语义相似度，并进行softmax。训练的目标是使得查询下正向文档的概率最高。下方左侧是个典型的GRU网络，右侧是典型的Self-Attention模型。

我们的训练数据如下：正样本为Query点击的Doc，负样本是从Query未点击的Doc中随机抽取，正负样本比例为1:4。Query输入是用户查询内容，Doc输入是档标题+书籍名。

基于学习排序算法Ranknet的排序优化

同时我们利用Ranknet模型对搜索召回结果进行排序优化，将相关性高的doc放在靠前的位置，提高搜索结果准确性和用户体验。Ranknet模型属于pairwise方法，不关心某个doc与query的相关程度的具体数值，而是将所有的doc排序问题转化为求解任意两个doc的先后问题。即：使用 doci比docj更相关、docj比doci更相关以及两者相关程度相等，共三个类别，并分别使用{1, -1, 0}作为对应的类别标签。

如上图，Ranknet算法流程为：左侧根据用户的查询和召回的文章提取特征，然后由一个DNN网络计算出每个文档的分词，再将文档的分值两两求差值，之后经过sigmoid函数将数值约束在(0,1)之间。

最右键标注数据，当前采用的是每篇文档的点击次数，将文档的点击次数进行两两比较，小的为-1，相等的为0，大的为1。然后再将比较值进行线性化，将值缩放到[0,0.5,1]的方位。模型训练的目标是将模型得出的比较值和标签数据两两比较的值尽量接近，模型训练采用的是交叉熵损失函数。

我们智能搜索也带来了不错的效果，无论是卡片智能召回，还是排序优化，都提升了Top1000和Top5000的搜索点击率

下一步我们计划是首先进一步提升排序模型离线指标，根据业务理解和特征选择丰富特征集，找出更多与相关性相关的特征；其次是区分长短词查询，针对短查询构建单独的训练模型，提升短查询语句排序准确性；最后是基于NLU进一步挖掘用户的搜索意图，解决用户搜索意图不明确的问题。

关键举措5：体验闭环-情感分析和声音分类

对用户体验问题的分析和改进，是产品体验持续改进的重要方式。我们主要利用NLP技术分析用户情感，并对体验问题进行分类和分发处理，相关逻辑视图如下：

内外部声音接入后，经过数据去重和清洗处理后存入数据库中，再由NLP等能力进行情感分析和声音分类：对于负面声音及时发出舆情告警，对于产品的体验问题和需求分别通过Bug单和需求单跟踪和闭环。同时我们也有对应的运营管理平台进行舆情配置、重点舆情跟踪、情感反馈和看板数据呈现。这一块采用的模型也比较简单：底层是一个Bert的预训练模型，下游外接了一个分类模型。

最终，我们的效果数据如下：

1、负面情感分析的准确率达到95%+；

2、情感分析的工作量极大降低，人力数量减少；

3、负面情感处理的效率由小时级提升到分钟级；

4、根据体验问题分类，推动云服务完成50+有效改进建议闭环。

心得体会是：1、类别定义尽量明确、易区分，减少二义性；2、标注语料小批量高频率提供，抽样质检，准确率低于95%打回重新标注。