美团商品知识图谱的构建及应用

Posted 美团技术团队

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了美团商品知识图谱的构建及应用相关的知识,希望对你有一定的参考价值。


总第469

2021年 第039篇

商品知识图谱作为新零售行业数字化的基石,提供了围绕商品的精准结构化理解,对业务应用起到了至关重要的作用。相比于美团大脑中原有的围绕商户的图谱而言,商品图谱需应对更加分散、复杂、海量的数据和业务场景,且面临着信息来源质量低、数据维度多、依赖常识以及专业知识等挑战。本文将围绕零售商品知识图谱,介绍美团在商品层级建设、属性体系建设、图谱建设人效提升等方向的探索,希望对大家有所帮助或启发。
  • 背景

  • 美团大脑

  • 在新零售领域的探索

  • 商品图谱建设的目标

  • 商品图谱建设的挑战

  • 商品图谱建设

  • 层级体系建设

  • 属性维度建设

  • 效率提升

  • 人机结合-专业图谱建设

  • 商品图谱的落地应用

  • 结构化召回

  • 排序模型泛化性

  • 多模态图谱嵌入

  • 用户/商家端优化

  • 作者简介

  • 招聘信息

  • 背景美团大脑
    近年来,人工智能正在快速地改变人们的生活,背后其实有两大技术驱动力:深度学习知识图谱。我们将深度学习归纳为隐性的模型,它通常是面向某一个具体任务,比如说下围棋、识别猫、人脸识别、语音识别等等。通常而言,在很多任务上它能够取得很优秀的结果,同时它也有一些局限性,比如说它需要海量的训练数据,以及强大的计算能力,难以进行跨任务的迁移,并且不具有较好的可解释性。在另一方面,知识图谱作为显式模型,同样也是人工智能的一大技术驱动力,它能够广泛地适用于不同的任务。相比深度学习,知识图谱中的知识可以沉淀,具有较强的可解释性,与人类的思考更加贴近,为隐式的深度模型补充了人类的知识积累,和深度学习互为补充。因此,全球很多大型的互联网公司都在知识图谱领域积极进行布局。

    图1 人工智能两大驱动力
    美团连接了数亿用户和数千万商户,背后也蕴含着丰富的日常生活相关知识。2018年,美团知识图谱团队开始构建美团大脑,着力于利用知识图谱技术赋能业务,进一步改善用户体验。具体来说,美团大脑会对美团业务中涉及到的千万级别商家、亿级别的菜品/商品、数十亿的用户评论,以及背后百万级别的场景进行深入的理解和结构化的知识建模,构建人、店、商品、场景之间的知识关联,从而形成生活服务领域大规模的知识图谱。现阶段,美团大脑已覆盖了数十亿实体,数百亿三元组,在餐饮、外卖、酒店、金融等场景中验证了知识图谱的有效性。

    图2 美团大脑
    在新零售领域的探索
    美团逐步突破原有边界,在生活服务领域探索新的业务,不仅局限于通过外卖、餐饮帮大家“吃得更好”,近年来也逐步拓展到零售、出行等其他领域,帮大家“生活更好”。在零售领域中,美团先后落地了美团闪购、美团买菜、美团优选、团好货等一系列相应的业务,逐步实现“万物到家”的愿景。为了更好地支持美团的新零售业务,我们需要对背后的零售商品建立知识图谱,积累结构化数据,深入对零售领域内商品、用户、属性、场景等的理解,以便能更好地为用户提供零售商品领域内的服务。
    相比于围绕商户的餐饮、外卖、酒店的等领域,零售商品领域对于知识图谱的建设和应用提出了更大的挑战。一方面,商品数量更加庞大,覆盖的领域范围也更加宽广。另一方面,商品本身所具有的显示信息往往比较稀疏,很大程度上需要结合生活中的常识知识来进行推理,方可将隐藏在背后的数十维的属性进行补齐,完成对商品完整的理解。在下图的例子中,“乐事黄瓜味”这样简单的商品描述其实就对应着丰富的隐含信息,只有对这些知识进行了结构化提取和相应的知识推理后,才能够更好的支持下游搜索、推荐等模块的优化。

    图3 商品结构化信息的应用
    商品图谱建设的目标
    我们针对美团零售业务的特点,制定了多层级、多维度、跨业务的零售商品知识图谱体系。

    图4 商品知识图谱体系
    多层级
    在不同业务的不同应用场景下,对于“商品”的定义会有所差别,需要对各个不同颗粒度的商品进行理解。因此,在我们的零售商品知识图谱中,建立了五层的层级体系,具体包括:
  • L1-商品SKU/SPU:对应业务中所售卖的商品颗粒度,是用户交易的对象,往往为商户下挂的商品,例如“望京家乐福所售卖的蒙牛低脂高钙牛奶250ml盒装”。这一层级也是作为商品图谱的最底层的基石,将业务商品库和图谱知识进行打通关联。
  • L2-标准商品:描述商品本身客观事实的颗粒度,例如“蒙牛低脂高钙牛奶250ml盒装”,无论通过什么渠道在什么商户购买,商品本身并没有任何区别。商品条形码则是在标准商品这层的客观依据。在这一层级上,我们可以建模围绕标准商品的客观知识,例如同一个标准商品都会具有同样的品牌、口味、包装等属性。
  • L3-抽象商品:进一步我们将标准商品向上抽象的商品系列,例如“蒙牛低脂高钙牛奶”。在这一层级中,我们不再关注商品具体的包装、规格等,将同系列的商品聚合为抽象商品,承载了用户对于商品的主观认知,包括用户对商品系列的别名俗称、品牌认知、主观评价等。
  • L4-主体品类:描述商品主体的本质品类,列如“鸡蛋”、“奶油草莓”、“台式烤肠”等。这一层作为商品图谱的后台类目体系,以客观的方式对商品领域的品类进行建模,承载了用户对于商品的需求,例如各品牌各产地的鸡蛋都能够满足用户对于鸡蛋这个品类的需求。
  • L5-业务类目:相比于主体品类的后台类目体系,业务类目作为前台类目体系会依据业务当前的发展阶段进行人工定义和调整,各个业务会根据当前业务阶段的特点和需求建立对应的前台类目体系。
  • 多维度
  • 商品属性视角:围绕商品本身,我们需要有海量的属性维度来对商品进行描述。商品属性维度主要分为两类:一类是通用的属性维度,包括品牌、规格、包装、产地等;另一类是品类特有的属性维度,例如对于牛奶品类我们会关注脂肪含量(全脂/低脂/脱脂牛奶)、存储方式(常温奶、冷藏奶)等。商品属性主要是刻画了商品的客观知识,往往会建立在标准商品这一层级上。
  • 用户认知视角:除了客观的商品属性维度以外,用户往往对于商品会有一系列的主观认知,例如商品的别名俗称(“小黑瓶”、“快乐水”)、对于商品的评价(“香甜可口”、“入口即化”、“性价比高”)、商品的清单/榜单(“进口食品榜单”、“夏季消暑常备”)等维度。这些主观认知往往会建立在抽象商品这一层级上。
  • 品类/类目视角:从品类/类目的视角来看,不同品类/类目也会有各自不同的关注点。在这一层级上,我们会建模各个品类/类目下有哪些典型的品牌、用户关注哪些典型属性、不同品类的复购周期是多长时间等。
  • 跨业务
    美团大脑商品知识图谱的目标是希望能够对客观世界中的商品知识进行建模,而非局限于单个业务之中。在商品图谱的五层体系中,标准商品、抽象商品、品类体系都是与业务解耦的,围绕着客观商品所建立的,包括围绕这些层级建立的各维度数据也均是刻画了商品领域的客观知识。
    在应用于各个业务当中时,我们将客观的图谱知识向上关联至业务前台类目,向下关联至业务商品SPU/SKU,则可以完成各个业务数据的接入,实现各个业务数据和客观知识之间的联通,提供更加全面的跨业务的全景数据视角。利用这样的数据,在用户方面我们可以更加全面的建模、分析用户对于业务、品类的偏好,对于价格、品质等的敏感程度,在商品方面我们可以更准确的建模各品类的复购周期、地域/季节/节日偏好等。
    商品图谱建设的挑战
    商品知识图谱的构建的挑战主要来源于以下三个方面:
    1. 信息来源质量低:商品本身所具有的信息比较匮乏,往往以标题和图片为主。尤其在美团闪购这样LBS的电商场景下,商户需要上传大量的商品数据,对于商品信息的录入存在很多信息不完整的情况。在标题和图片之外,商品详情虽然也蕴含着大量的知识信息,但是其质量往往参差不齐,并且结构各异,从中进行知识挖掘难度极高。
    2. 数据维度多:在商品领域有众多的数据维度需要进行建设。以商品属性部分为例,我们不仅需要建设通用属性,诸如品牌、规格、包装、口味等维度,同时还要覆盖各个品类/类目下特定关注的属性维度,诸如脂肪含量、是否含糖、电池容量等,整体会涉及到上百维的属性维度。因此,数据建设的效率问题也是一大挑战。
    3. 依赖常识/专业知识:人们在日常生活中因为有很丰富的常识知识积累,可以通过很简短的描述获取其背后隐藏的商品信息,例如在看到“乐事黄瓜”这样一个商品的时候知道其实是乐事黄瓜味的薯片、看到“唐僧肉”的时候知道其实这不是一种肉类而是一种零食。因此,我们也需要探索结合常识知识的语义理解方法。同时,在医药、个护等领域中,图谱的建设需要依赖较强的专业知识,例如疾病和药品之间的关系,并且此类关系对于准确度的要求极高,需要做到所有知识都准确无误,因此也需要较好的专家和算法相结合的方式来进行高效的图谱构建。
    商品图谱建设
    在了解了图谱建设的目标和挑战后,接下来我们将介绍商品图谱数据建设的具体方案。
    层级体系建设
    品类体系建设
    本质品类描述了商品本质所属的最细类别,它聚合了一类商品,承载了用户最终的消费需求,如“高钙牛奶”、“牛肉干”等。本质品类与类目也是有一定的区别,类目是若干品类的集合,它是抽象后的品类概念,不能够明确到具体的某类商品品类上,如“乳制品”、“水果”等。
    品类打标:对商品图谱的构建来说,关键的一步便是建立起商品和品类之间的关联,即对商品打上品类标签。通过商品和品类之间的关联,我们可以建立起商品库中的商品与用户需求之间的关联,进而将具体的商品展示到用户面前。下面简单介绍下品类打标方法:
    1. 品类词表构建:品类打标首先需要构建一个初步的商品品类词表。首先,我们通过对美团的各个电商业务的商品库、搜索日志、商户标签等数据源进行分词、NER(参见文章《美团搜索中NER技术的探索与实践)、新词发现等操作,获得初步的商品候选词。然后,通过标注少量的样本进行二分类模型的训练(判断一个词是否是品类)。此外,我们通过结合主动学习的方法,从预测的结果中挑选出难以区分的样本,进行再次标注,继续迭代模型,直到模型收敛。
    2. 品类打标:首先,我们通过对商品标题进行命名实体识别,并结合上一步中的品类词表来获取商品中的候选品类,如识别“蒙牛脱脂牛奶 500ml”中的“脱脂牛奶”、“牛奶”等。然后,在获得了商品以及对应的品类之后,我们利用监督数据训练品类打标的二分类模型,输入商品的SPU_ID和候选品类TAG构成的Pair,即<SPU_ID,TAG>,对它进行是否匹配的预测。具体的,我们一方面利用结合业务中丰富的半结构化语料构建围绕标签词的统计特征,另一方面利用命名实体识别、基于BERT的语义匹配等模型产出高阶相关性特征,在此基础上,我们将上述特征输入到终判模型中进行模型训练。
    3. 品类标签后处理:在这一步中,我们对模型打上的品类进行后处理的一些策略,如基于图片相关性、结合商品标题命名实体识别结果等的品类清洗策略。
    通过上述的三个步骤,我们便可以建立起商品与品类之间的联系。
    品类体系:品类体系由品类和品类间关系构成。常见的品类关系包括同义词和上下位等。在构建品类体系的过程中,常用的以下几种方法来进行关系的补全。我们主要使用下面的一些方法:
    1. 基于规则的品类关系挖掘。在百科等通用语料数据中,有些品类具有固定模式的描述,如“玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、“榴莲是著名热带水果之一”,因此,可以使用规则从中提取同义词和上下位。
    2. 基于分类的品类关系挖掘。类似于上文中提到的品类打标方法,我们将同义词和上下位构建为<TAG, TAG>的样本,通过在商品库、搜索日志、百科数据、UGC中挖掘的统计特征以及基于Sentence-BERT得到的语义特征,使用二分类模型进行品类关系是否成立的判断。对于训练得到的分类模型,我们同样通过主动学习的方式,选出结果中的难分样本,进行二次标注,进而不断迭代数据,提高模型性能。
    3. 基于图的品类关系推理。在获得了初步的同义词、上下位关系之后,我们使用已有的这些关系构建网络,使用GAE、VGAE等方法对网络进行链路预测,从而进行图谱边关系的补全。

    图5 商品图谱品类体系的构建
    标准/抽象商品
    标准商品是描述商品本身客观事实的颗粒度,和销售渠道和商户无关,而商品条形码是标准商品这层的客观依据。标品关联即将同属于某个商品条形码的业务SKU/SPU,都正确关联到该商品条形码上,从而在标准商品层级上建模相应的客观知识,例如标准商品对应的品牌、口味和包装等属性。下面通过一个案例来说明标品关联的具体任务和方案。
    案例:下图是一个公牛三米插线板的标准商品。商家录入信息的时候,会把商品直接关联到商品条码上。通过商户录入数据完成了一部分的标品关联,但这部分比例比较少,且存在大量的链接缺失,链接错误的问题。另外,不同的商家对于同样的标品,商品的标题的描述是千奇百怪的。我们的目标是补充缺失的链接,将商品关联到正确的标品上。

    图6 商品图谱标品关联任务
    针对标品关联任务,我们构建了商品领域的同义词判别模型:通过远监督的方式利用商户已经提供的少量有关联的数据,作为已有的知识图谱构造远监督的训练样本。在模型中,正例是置信度比较高的标品码;负例是原始数据中商品名或者图像类似但不属于同一标品的SPU。构造准确率比较高的训练样本之后,通过BERT模型进行同义词模型训练。最后,通过模型自主去噪的方式,使得最终的准确率能够达到99%以上。总体能做到品牌,规格,包装等维度敏感。

    图7 商品图谱标品关联方法
    抽象商品是用户认知的层面,作为用户所评论的对象,这一层对用户偏好建模更加有效。同时,在决策信息的展示上,抽象商品粒度也更符合用户认知。例如下图所示冰淇淋的排行榜中,罗列了用户认知中抽象商品对应的SKU,然后对应展示不同抽象商品的特点、推荐理由等。抽象商品层整体的构建方式,和标准商品层比较类似,采用标品关联的模型流程,并在数据构造部分进行规则上的调整。

    图8 商品图谱抽象商品聚合
    属性维度建设
    对一个商品的全面理解,需要涵盖各个属性维度。例如“乐事黄瓜味薯片”,需要挖掘它对应的品牌、品类、口味、包装规格、标签、产地以及用户评论特色等属性,才能在商品搜索、推荐等场景中精准触达用户。商品属性挖掘的源数据主要包含商品标题、商品图片和半结构化数据三个维度。

    图9 商品图谱属性建设
    商品标题包含了对于商品最重要的信息维度,同时,商品标题解析模型可以应用在查询理解中,对用户快速深入理解拆分,为下游的召回排序也能提供高阶特征。因此,这里我们着重介绍一下利用商品标题进行属性抽取的方法。
    商品标题解析整体可以建模成文本序列标注的任务。例如,对于商品标题“乐事黄瓜薯片”,目标是理解标题文本序列中各个成分,如乐事对应品牌,黄瓜对应口味,薯片是品类,因此我们使用命名实体识别(NER)模型进行商品标题解析。然而商品标题解析存在着三大挑战:(1)上下文信息少;(2)依赖常识知识;(3)标注数据通常有较多的噪音。为了解决前两个挑战,我们首先尝试在模型中引入了图谱信息,主要包含以下三个维度:
  • 节点信息:将图谱实体作为词典,以Soft-Lexicon方式接入,以此来缓解NER的边界切分错误问题。
  • 关联信息:商品标题解析依赖常识知识,例如在缺乏常识的情况下,仅从标题“乐事黄瓜薯片”中,我们无法确认“黄瓜”是商品品类还是口味属性。因此,我们引入知识图谱的关联数据缓解了常识知识缺失的问题:在知识图谱中,乐事和薯片之间存在着“品牌-售卖-品类”的关联关系,但是乐事跟黄瓜之间则没有直接的关系,因此可以利用图结构来缓解NER模型常识知识缺少的问题。具体来说,我们利用Graph Embedding的技术对图谱进行的嵌入表征,利用图谱的图结构信息对图谱中的单字,词进行表示,然后将包含了图谱结构信息的嵌入表示和文本语义的表征进行拼接融合,再接入到NER模型之中,使得模型能够既考虑到语义,也考虑到常识知识的信息。
  • 节点类型信息:同一个词可以代表不同的属性,比如“黄瓜”既可以作为品类又可以作为属性。因此,对图谱进行Graph Embedding建模的时候,我们根据不同的类型对实体节点进行拆分。在将图谱节点表征接入NER模型中时,再利用注意力机制根据上下文来选择更符合语义的实体类型对应的表征 ,缓解不同类型下词语含义不同的问题,实现不同类型实体的融合。
  • 图10 商品图谱标题解析
    接下来我们探讨如何缓解标注噪音的问题。在标注过程中,少标漏标或错标的问题无法避免,尤其像在商品标题NER这种标注比较复杂的问题上,尤为显著。对于标注数据中的噪音问题,采用以下方式对噪音标注优化:不再采取原先非0即1的Hard的训练方式,而是采用基于置信度数据的Soft训练方式,然后再通过Bootstrapping的方式迭代交叉验证,然后根据当前的训练集的置信度进行调整。我们通过实验验证,使用Soft训练+Bootstrapping多轮迭代的方式,在噪声比例比较大的数据集上,模型效果得到了明显提升。具体的方法可参见我们在NLPCC 2020比赛中的论文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》。

    图11 基于噪音标注的NER优化
    效率提升
    知识图谱的构建往往是针对于各个领域维度的数据单独制定的挖掘方式。这种挖掘方式重人工,比较低效,针对每个不同的领域、每个不同的数据维度,我们都需要定制化的去建设任务相关的特征及标注数据。在商品场景下,挖掘的维度众多,因此效率方面的提高也是至关重要的。我们首先将知识挖掘任务建模为三类分类任务,包括节点建模、关系建模以及节点关联。在整个模型的训练过程中,最需要进行效率优化的其实就是上述提到的两个步骤:(1)针对任务的特征提取;(2)针对任务的数据标注。

    图12 知识挖掘任务建模
    针对特征提取部分,我们摒弃了针对不同挖掘任务做定制化特征挖掘的方式,而是尝试将特征和任务解耦,构建跨任务通用的图谱挖掘特征体系,利用海量的特征库来对目标的节点/关系/关联进行表征,并利用监督训练数据来进行特征的组合和选择。具体的,我们构建的图谱特征体系主要由四个类型的特征组构成:
    1. 规则模板型特征主要是利用人工先验知识,融合规则模型能力。
    2. 统计分布型特征,可以充分利用各类语料,基于不同语料不同层级维度进行统计。
    3. 句法分析型特征则是利用NLP领域的模型能力,引入分词、词性、句法等维度特征。
    4. 嵌入表示型特征,则是利用高阶模型能力,引入BERT等语义理解模型的能力。

    图13 知识挖掘特征体系
    针对数据标注部分,我们主要从三个角度来提升效率。
    1. 通过半监督学习,充分的利用未标注的数据进行预训练。
    2. 通过主动学习技术,选择对于模型来说能够提供最多信息增益的样本进行标注。
    3. 利用远程监督方法,通过已有的知识构造远监督样本进行模型训练,尽可能的发挥出已有知识的价值。
    人机结合-专业图谱建设
    当前医药健康行业结构性正在发生变化,消费者更加倾向于使用在线医疗解决方案和药品配送服务,因此医药业务也逐渐成为了美团的重要业务之一。相比于普通商品知识图谱的建设,药品领域知识具有以下两个特点:(1)具有极强的专业性,需要有相关背景知识才能判断相应的属性维度,例如药品的适用症状等。(2)准确度要求极高,对于强专业性知识不允许出错,否则更容易导致严重后果。因此我们采用将智能模型和专家知识结合的方式来构建药品知识图谱。
    药品图谱中的知识可以分为弱专业知识和强专业知识两类,弱专业知识即一般人能够较容易获取和理解的知识,例如药品的使用方法、适用人群等;而强专业知识则是需要具有专业背景的人才能够判断的知识,例如药品的主治疾病、适应症状等。由于这两类数据对专家的依赖程度不同,因此我们分别采取不同的挖掘链路:
  • 弱专业知识:对于药品图谱的弱专业知识挖掘,我们从说明书、百科知识等数据源中提取出相应的信息,并结合通过专家知识沉淀出来的规则策略,借助通用语义模型从中提取相应的知识,并通过专家的批量抽检,完成数据的建设。
  • 强专业知识:对于药品图谱的强专业知识挖掘,为了确保相关知识百分百准确,我们通过模型提取出药品相关属性维度的候选后,将这些候选知识给到专家进行全量质检。在这里,我们主要是通过算法的能力,尽可能减少专业药师在基础数据层面上的精力花费,提高专家从半结构化语料中提取专业知识的效率。
  • 在药品这类专业性强的领域,专业知识的表述和用户习惯往往存在差异。因此我们除了挖掘强弱专业知识外,还需要填补专业知识和用户之间的差异,才能将药品图谱更好的与下游应用结合。为此,我们从用户行为日志以及领域日常对话等数据源中,挖掘了疾病、症状和功效的别名数据,以及药品通用名的俗称数据,来打通用户习惯和专业表述之间的通路。

    图14 人机结合的专业知识挖掘
    商品图谱的落地应用
    自从谷歌将知识图谱应用于搜索引擎,并显著提升了搜索质量与用户体验,知识图谱在各垂直领域场景都扮演起了重要的角色。在美团商品领域中,我们也将商品图谱有效的应用在围绕商品业务的搜索、推荐、商家端、用户端等多个下游场景当中,接下来我们举几个典型的案例进行介绍。
    结构化召回
    商品图谱的数据,对于商品的理解很有帮助。例如,在商品搜索中,如用户在搜索头疼腰疼时,通过结构化的知识图谱,才能知道什么药品是有止疼功效的;用户在搜索可爱多草莓、黄瓜薯片时,需要依赖图谱的常识知识来理解用户真正需求是冰淇淋和薯片,而不是草莓和黄瓜。

    图15 基于图谱的结构化召回
    排序模型泛化性
    图谱的类目信息、品类信息、属性信息,一方面可以作为比较强有力的相关性的判断方法和干预手段,另一方面可以提供不同粗细粒度的商品聚合能力,作为泛化性特征提供到排序模型,能有效地提升排序模型的泛化能力,对于用户行为尤为稀疏的商品领域来说则具有着更高的价值。具体的特征使用方式则包括:
    1. 通过各颗粒度进行商品聚合,以ID化特征接入排序模型。
    2. 在各颗粒度聚合后进行统计特征的建设。
    3. 通过图嵌入表示的方式,将商品的高维向量表示和排序模型结合。

    图16 基于图谱的排序优化
    多模态图谱嵌入
    现有的研究工作已经在多个领域中证明了,将知识图谱的数据进行嵌入表示,以高维向量表示的方式和排序模型结合,可以有效地通过引入外部知识达到缓解排序/推荐场景中数据稀疏以及冷启动问题的效果。然而,传统的图谱嵌入的工作往往忽视了知识图谱中的多模态信息,例如商品领域中我们有商品的图片、商品的标题、商家的介绍等非简单的图谱节点型的知识,这些信息的引入也可以进一步提升图谱嵌入对推荐/排序的信息增益。

    图17 基于多模态图谱的推荐-背景
    现有的图谱嵌入方法在应用到多模态图谱表征的时候会存在一些问题,因为在多模态场景下,图谱中边的含义不再是单纯的语义推理关系,而是存在多模态的信息补充的关系,因此我们也针对多模态图谱的特点,提出了MKG Entity Encoder和MKG Attention Layer来更好的建模多模态知识图谱,并将其表征有效的接入至推荐/排序模型中,具体方法可以参考我们在CIKM 2020发表了的论文《Multi-Modal Knowledge Graphs for Recommender Systems》。

    图18 基于图谱的排序优化-模型
    用户/商家端优化
    商品图谱在用户端提供显式化的可解释性信息,辅助用户进行决策。具体的呈现形式包括筛选项、特色标签、榜单、推荐理由等。筛选项的维度受当前查询词对应品类下用户关注的属性类别决定。例如,当用户搜索查询词为薯片时,用户通常关注的是它的口味、包装、净含量等,我们将会根据供给数据在这些维度下的枚举值展示筛选项。商品的特色标签则来源于标题、商品详情页信息与评论数据的提取,以简洁明了的结构化数据展示商品特色。商品的推荐理由通过评论抽取与文本生成两种渠道获得,与查询词联动,以用户视角给出商品值得买的原因,而榜单数据则更为客观,以销量等真实数据,反应商品品质。
    在商家端,即商家发布侧,商品图谱则提供了基于商品标题的实时预测能力,帮助商家进行类目的挂载、属性信息的完善。例如,商家填写标题“德国进口德亚脱脂纯牛奶12盒”后,商品图谱提供的在线类目预测服务可将其挂载到“食品饮料-乳制品-纯牛奶”类目,并通过实体识别服务,得到商品的“产地-德国”,“是否进口-进口”,“品牌-德亚”,“脂肪含量-脱脂”,“规格-12盒”的属性信息,预测完成后,由商家确认发布,降低商家对商品信息的维护成本,并提升发布商品的信息质量。
    作者简介
    雪智,凤娇,姿雯,匡俊,林森,武威等,均来自美团平台搜索与NLP部NLP中心。
    ----------  END  ----------
    招聘信息
    美团大脑知识图谱团队大量岗位持续招聘中,实习、校招、社招均可,坐标北京/上海,欢迎感兴趣的同学加入我们,利用自然语言和知识图谱技术,帮大家吃得更好,生活更好。简历可投递至:caoxuezhi@meituan.com

    美团科研合作

    美团科研合作致力于搭建美团各部门与高校、科研机构、智库的合作桥梁和平台,依托美团丰富的业务场景、数据资源和真实的产业问题,开放创新,汇聚向上的力量,围绕人工智能、大数据、物联网、无人驾驶、运筹优化、数字经济、公共事务等领域,共同探索前沿科技和产业焦点宏观问题,促进产学研合作交流和成果转化,推动优秀人才培养。面向未来,我们期待能与更多高校和科研院所的老师和同学们进行合作。欢迎老师和同学们发送邮件至:meituan.oi@meituan.com 

    也许你还想看
      | 美团外卖美食知识图谱的迭代及应用
      | 大众点评搜索基于知识图谱的深度学习排序实践
      | 常识性概念图谱建设以及在美团场景中的应用

    阅读更多

    ---
    前端 |  算法 | 后端 | 数据
    安全 | android | ios  | 运维 | 测试

    美团外卖美食知识图谱的迭代及应用

     

    菜品是外卖交易过程的核心要素,对菜品的理解也是实现外卖供需匹配的重点。今天我们将一次推送三篇文章,系统地介绍了美团外卖美食知识图谱的构建和应用。《美团外卖美食知识图谱的迭代及应用》会介绍外卖知识图谱的体系全貌,包括菜品类目、标准菜品、美食基础属性和美食业务主题属性。《外卖商品的标准化建设与应用》将重点介绍外卖菜品标准化建设思路、技术方案和业务应用。由于外卖的业务特点是搭配成单,而《外卖套餐搭配的探索和应用》一文会针对性地介绍外卖套餐搭配技术的迭代以及应用实践。希望对从事相关工作的同学能够带来一些启发或者帮助。

    本文系外卖美食知识图谱系列的第一篇文章,这篇文章系统地介绍了美团外卖美食知识图谱的标签体系结构,包括菜品类目标签、标准菜品名、美食基础属性(食材、口味等)和美食业务主题属性(商家招牌、类目经典等)。在技术层面,举例对标签体系的具体构建方法进行介绍,例如基于BERT预训练的分类模型。在应用方面,介绍了美食知识图谱在美团外卖业务的具体应用,包括支撑套餐搭配的菜品表征、提升搜索和商家推荐等业务的用户体验。

    1. 背景

    知识图谱,旨在描述真实世界中存在的各种实体和实体之间的关系。在美团外卖业务中,美食商品是美团向用户提供服务的基础,美食知识图谱的建设,可以帮助我们向用户提供更加准确、更加丰富、更加个性化的美食服务。另外,美团外卖业务向用户提供“到家”吃饭的服务,到店餐饮业务则向用户提供“到店”吃饭的服务,而外卖和到店的商家和菜品有相当程度的重合,菜品数据的对齐,为我们进行线上(外卖场景)线下(到店场景)数据的对比分析也提供了一个很好的“抓手”。

    本文介绍了外卖美食知识图谱的建设,基于对外卖业务数据(外卖交易数据、商家录入的商品标签信息、专业描述PGC、用户评论UGC、商品图片等)的挖掘和分析,形成了针对外卖美食的分类体系(美食类目标签)和标准化体系(标准菜品名标签),并进一步针对不同类型的美食商品,构建包含口味、食材等众多美食基础属性体系。同时,依托美团外卖的业务特性,构建美食商品在外卖业务中涉及的主题属性体系,例如商家招牌、商家主营、类目经典等。目前,外卖美食知识图谱的标签结构如下图1所示:

    图1 美食知识图谱标签体系

     

    外卖美食知识图谱包含以下四种维度的标签(以“宫保鸡丁”为例,如下图2所示):

    1. 类目标签:包括主食、小吃、菜品等类目,并在每个类目下,形成了层级化的三百多种细分类目。例如“宫保鸡丁”的类目是“菜品”。类目标签是美食商品的基础分类信息,根据类目的不同,美食商品的基础属性也不同。例如“菜品”类目存在“荤素”、“菜系”之分,而“酒水饮品”类目则没有这种属性标签。

    2. 标准菜品名标签:标准菜品名标签主要为标准商品信息,例如“宫保鸡丁(招牌必点)”的标准商品是“宫保鸡丁”。因商家输入商品的多样性,标准菜标签的建设,实现了相同美食的聚合。

    3. 基础属性:根据美食商品的类目不同,构建包括美食的食材、菜系、口味、制作方法、荤素等基础属性。例如“宫保鸡丁”的菜系是“川菜”,食材有“鸡胸”和“花生”,荤素标签是“荤”。基础属性的挖掘对我们理解商品起到关键作用,在商品的筛选、展示、商品表征等业务需求方面,提供基本的数据特征。

    4. 主题属性:主题属性主要体现美食的业务主题,包括美食在外卖的交易行为、美食在商家的定位、美食在用户反馈中的好评度等。例如某商家的“宫保鸡丁(招牌必点)”是该商家的“招牌菜”。

    图2 外卖美食知识图谱样例

    菜品对齐,涉及到菜品数据,来自外卖在线菜品、点评推荐菜品、美团商家套餐等。

    2. 需求及挑战

    目前,外卖美食知识图谱已经应用于美团外卖的多个场景,例如推荐、搜索、套餐搭配、运营分析等。业务的深入发展,对美食知识图谱的建设和迭代也提出了更加复杂的要求,例如:

    1. 美食商品越来越多样,相应的美食知识图谱则需要越来越精细和准确。例如美食知识图谱的类目标签从零开始,建设了包含一百多种类目的类目标签体系。但随着业务发展,部分类目存在明显的可细化空间。

    2. 图谱标签的挖掘,偏向于静态标签的挖掘,对于相同图谱标签下的美食,缺少业务相关的主题属性描述。例如同样包含“花生”的“酒鬼花生”,相比“宫保鸡丁”,更能代表“花生”相关的美食。

    3. 外卖美食知识图谱主要描述外卖美食商品,而同一商家的美食商品,也可能会出现在该店的线下收银等业务中。通过对齐不同业务的美食商品,可以在美食实体层面,完善美食知识图谱对商家美食的描述,从而指导商品和商家运营。

    为满足业务需求,我们对类目标签和基础属性进行了迭代和优化;同时,构建了业务相关的主题属性。另外,我们将外卖菜品和到餐菜品进行了实体对齐。其中,挖掘主题属性,即挖掘业务相关的图谱知识,是一个需要综合考虑外卖业务和商品本身属性的复杂过程。外卖菜品和到餐菜品的对齐,则需要综合考虑菜品多样性表述和菜品主体归一。

    外卖美食知识图谱的迭代难点主要体现在以下几点:

    1. 业务相关的主题属性挖掘,并没有现成的体系可以参考,在构建过程中,涉及大量的分析和体系设计工作。

    2. 主题属性的挖掘,最重要的是需要从用户的需求出发,分析用户对商品的需求点,并将其反映在商品的图谱层面,形成相应的主题属性标签。同时,商家的商品信息是一个动态变化的过程,例如销量、供给、商品标签等,前后两天的信息可能就会完全不同。因此业务性主题属性的挖掘,一方面需要建设相对完善的体系,另一方面也需要适配业务数据的动态变化过程,也就在图谱挖掘和需求匹配上带来了极大的挑战。

    3. 商家录入菜品时,对菜品存在多样性表述,例如同一道菜在分量、口味、食材等方面存在的差异。菜品对齐时,则需要对这些多样性表述进行平衡,例如是否忽略分量因素等。但目前并没有现成的对齐标准可以参考。

    3. 外卖美食知识图谱的迭代

    因篇幅受限,本文主要对其中菜品类目,不同类目、口味、食材、荤素、做法下的经典美食,健康餐等图谱标签的挖掘进行介绍。其中,在图谱标签挖掘中涉及到的数据来源和采用的技术,大致如下表所示:

    3.1 菜品类目

    菜品类目标签的挖掘,主要解决美食菜品是什么类别的问题。实现这一目标的挑战有两方面:首先是类目体系如何建立,其次是如何将商品链接到相应的类目节点。在最开始的体系构建时,我们从美食商品的特点以及业务的具体需求出发,从零开始建立起包含一百多种类别的层次化类别体系,部分实例如图3(左)所示。同时,构建基于CNN+CRF的分类模型,对美食商品进行类目分类,如图4(左)所示。

    然而,随着业务的发展,已有分类目已经无法支持现有业务的需求。例如:原先的类目体系,对热菜描述不够详细,譬如没有区分热菜的做法等。为此,我们与外卖的供给规划部合作,将类目体系扩充到细分的三百多种类目标签,划分更加详细,覆盖也更加全面,部分实例如图3(右)所示。

    图3 类目体系的迭代

     

    类目的细分,要求模型更加精确。在进行类目识别时,可用的数据包括菜品名、商家店内侧边栏分类名称、商家名等。考虑到可使用的信息大多为文本信息,并且,商家录入的文本并没有一定的规范,菜品名也多种多样,为提高模型精度,我们将原先的CNN+CRF的分类模型进行了升级,采用模型容量更大的BERT预训练+Fine-Tuning的模型。模型结构如下图4(右)所示。

    图4 类目模型迭代

    3.2 不同类目、口味、食材、荤素、做法下的经典美食标签

    我们在建设主题属性时,首先在基础属性标签维度,综合考虑商品的销量和供给情况,对菜品进行选优。例如类目下的经典美食等。

    类目经典美食等指的是销量较高、供给量丰富的类目美食商品,例如主食经典美食、小吃经典美食。口味、食材、做法经典美食标签等也是相似的定义。

    在建设过程中,我们发现,假如直接在商品维度进行识别,因为商品的更新频率相对较高,对新录入的暂时没有销量或者暂时销量低的美食商品不友好,销量水平需要考虑在线时间的影响。因此我们使用标准菜品进行类目、口味经典等的识别,并通过标准菜品,泛化到具体的美食商品上。

    其中,“标准菜品”借用其它类电商业务中的“标品”概念,虽然绝大部分菜品的生产都不是标准化的过程,但是这里我们只关注主要的共性部分,忽略次要的差异部分。例如“西红柿鸡蛋”、“番茄炒蛋”都是同一类菜品。从结果上看,目前我们聚合出来的“标准菜品”达到几十万的量级,并且能够覆盖大部分美食商品。

    借助标准菜品,我们将类目、口味、食材、荤素、做法等标签聚合到标准菜品维度,并将销量、供给量进行标准菜品维度计算,这样就解决了商品在线时间长短的问题。在具体打标过程中,例如类目经典,我们基于销量和供给,在类目维度对标准菜进行排序,并选择Top n%标准菜进行打标,作为类目经典下的商品。例如在“面食”类目下,“西红柿鸡蛋面”的销量和供给量均在Top n%的水平,因此就认为“西红柿鸡蛋面”是一个面食类经典美食。

    3.3 健康餐

    这里的健康餐主要指低脂低卡餐,即低卡路里、低脂肪、高纤维、制作简单、原汁原味、健康营养的食物,一般为蔬菜水果(如罗勒、甘蓝、秋葵、牛油果等),富含优质蛋白的肉类(如三文鱼、虾、贝类、鸡胸等),谷物(主要以粗粮为主,如燕麦、高粱、藜麦等)。烹饪方法也坚持“少油,少盐,少糖”的原则,主要做法为蒸、煮、少煎、凉拌等。

    健康餐的识别,主要挑战在于本身的样本较少,但是因为健康餐的特殊性,商家在进行商品录入时,一般会对其进行描述,例如指出这个美食商品是“健康”的、“低卡”的、“健身”类型的,因此我们构建了一个分类模型,对健康餐进行识别。可使用的数据,包括商品名、商家导航栏、商家名称、商家对商品的描述等。而商家类目与商品的类目处于迭代状态,因此并没有对这部分信息进行使用。

    识别过程如下

    • 训练数据构建:因健康餐本身的占比相对较少,因此首先总结和健康餐相关的关键词,使用关键词进行文本匹配,采样概率相对较高的健康餐数据,进行外包数据标注。此处,我们总结出“沙拉、谷物饭、谷物碗、低油、低卡、无糖、减脂、减肥、轻食、轻卡”等关键词。

    • 模型构建:同一个商品因其中使用的配料不同,在健康餐识别方面也会不同,例如菜名为“招牌沙拉”的商品,假如沙拉中添加了芝士,则有可能商品就不会被识别成健康餐。为了综合考虑商家录入的商品信息,使用商品名、商家名、导航栏名称、商家录入的商品描述等。这四种数据为不同尺度的数据源,商品名等为相对较短的文本,因此在模型构建时,考虑使用类似Text-CNN[1]的结构进行字级别的特征提取;商品描述则是相对较长的文本,因此在构建时,考虑使用类似Transformer[3]的结构进行特征提取,使用Multi-head Attention的机制,提取长文本中,“字”层面的特征。具体结构如下:

      • 采用了两种结构:Multihead-attention(Transformer)和Text-CNN。实验发现,采用两种结构联合的方式,比采用单一结构准确率高。

      • 在建模时,均使用字级别特征处理,避免因为分词造成的误差,同时也避免未登录词的影响。

    • 数据迭代增强:因为使用关键词进行样本构建,在模型训练时,模型会朝着包含这些关键词的方向学习,因此存在漏召回的情况。在这里,我们进行了一定的训练数据增强,例如在评估时,选取可识别出健康餐的商家,对该商家中漏召回的数据进行训练数据补充;同时,对部分特征明显的关键词,进行补充并扩充正例。通过对训练样本的多次扩充,最终完成健康餐的高准确率识别。

    图5 健康餐识别模型

    3.4 菜品实体对齐

    考虑到同一商家菜品在不同业务线的菜品名可能略有差异,我们设计了一套菜品名匹配的算法,通过拆解菜品名称的量词、拼音、前后缀、子字符串、顺序等特征,利用美食类目识别、标准菜品名抽取、同义关系匹配等进行菜品实体对齐。例如:碳烧鸽=炭烧鸽、重庆辣子鸡=重庆歌乐山辣子鸡、茄子肉泥盖饭=茄子肉泥盖浇饭、番茄炒蛋=西红柿炒蛋等。目前,形成如下图的菜品归一体系:

    图6 菜品归一体系

    4. 应用

    这里对外卖美食知识图谱的应用,进行举例说明。主要涉及套餐搭配、美食商品展示等。

    4.1 套餐搭配-表征菜品

    为满足用户的搭配成单需求,进行套餐搭配技术的探索。套餐搭配技术的关键在于,对美食商品的认知,而外卖美食知识图谱,则提供了最全面的数据基础。我们基于同商家内的商品信息和历史成单信息,对商品的搭配关系进行拟合,参考指针网络[2]等结构,构建了基于Multi-Head Attention[3]的Enc-Dec模型,具体的模型结构如下:

    ① Encoder:对商家菜单进行建模,因菜单为无序数据,因此采用Attention的方式进行建模。商品的信息主要包括商品名、商品图谱标签、交易统计数据等三部分。

    a. 对菜名、商品标签分别进行Self-Attention计算,得到菜名和商品标签对应的向量信息,然后与交易统计数据进行Concat,作为商品的初步表示。

    b. 对商品的初步表示进行Self-Attention计算,以对同商家的商品有所感知。

    ② Deocoder:对搭配关系进行学习,基于当前已选择的商品,对下一个可能的搭配进行预估。

    a. 在搭配输出时,使用Beam-Search进行多种搭配结果的输出。

    b. 为了保证输出搭配中的商品的多样性,添加Coverage机制[2]。

    ③ 训练之后,将Encoder部分分离,进行离线调度,可实现每天的向量产出。

    具体的模型结构如下图7所示:

    图7 套餐搭配模型

    基于外卖美食知识图谱构建的套餐搭配模型,在多个入口(“满减神器”、“对话点餐”、“菜品详情页”等)取得转化的提升。

    4.2 交互式推荐

    通过分析外卖用户的需求,发现用户存在跨店相似商品对比的需求,为打破商家界限的选购流程特点,提供便捷的跨店对比决策方式。交互式推荐,通过新的交互模式,打造推荐产品的突破点。在用户的交互过程中,根据用户的历史偏好、实时的点击行为,向用户推荐可能喜欢的美食商品。如下图8(左)所示,在向用户进行同类美食的推荐时,美食知识图谱中的标准菜品标签提供了主要的数据支撑。

    4.3 搜索

    搜索作为外卖核心流量入口,承载了用户明确的外卖需求。用户通过输入关键词,进行菜品检索。在实际使用中,从搜索的关键词类型看,可能是某个具体的菜品,也可能是某种食材、某种菜系。在美食知识图谱中,图谱标签的高准确率和高覆盖,有助于提升搜索入口的用户体验,最新的实验也表明了这一点(新增部分食材、菜系、功效等标签,在搜索的线上实验效果正向)。

    图8 交互式推荐和搜索

    5. 未来规划

    5.1 场景化标签的挖掘

    美食与我们的生活息息相关,美团外卖每天为千万用户提供美食方面的服务。然而,用户的需求是多种多样的,在不同的环境、不同的场景下,对美食的需求也不尽相同。目前美食知识图谱挖掘,在场景相关的标签较为缺失,例如某些节气、节日等图谱知识;特定天气情况下的图谱知识;特定人群(增肌人群、减肥人群)等的图谱知识。接下来我们会在场景化标签的挖掘方面进行探索。

    在挖掘方法方面,目前的挖掘数据主要为文本信息。在商品图片、描述、结构化标签等信息的融合方面,挖掘不够深入,模型的效果也有待提升。因此在多模态识别模型方面,我们也会进行相应的探索。

    5.2 基于图谱的推荐技术研究

    美团外卖在理解美食的基础上,向用户进行美食推荐,以更好地满足用户对美食的需求。外卖美食知识图谱和外卖业务数据,作为实现这一点的数据基础,包含上亿的节点信息和十几亿的关系数据。通过对用户的商品搜索、点击、购买等行为进行建模分析,可以更加贴合用户的需求,向用户进行商品推荐,例如,将美食知识图谱和外卖行为数据融合,以用户为起点,进行随机游走,向用户推荐相关的美食。在接下来的图谱应用方面的探索中,我们也会更加深入的探索基于美食知识图谱和用户行为的推荐技术。

    6. 参考文献

    [1] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

    [2] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.

    [3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

    [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems. 2017: 1024-1034.

    7. 作者简介

    杨林、郭同、海超、懋地等,均来自美团外卖技术团队。

    阅读更多

    ---

    前端 |  算法 | 后端 | 数据

    安全 | Android | iOS  | 运维 | 测试

    ----------  END  ----------

    招聘信息

    美团外卖知识图谱组,致力于更全面精准的刻画外卖供需关系,赋能外卖推荐、搜索、营销等业务。欢迎感兴趣的同学发送简历至:mayunan@meituan.com。

    也许你还想看

      | 大众点评搜索基于知识图谱的深度学习排序实践

      | 美团餐饮娱乐知识图谱——美团大脑揭秘

      | 美团大脑:知识图谱的建模方法及其应用

    以上是关于美团商品知识图谱的构建及应用的主要内容,如果未能解决你的问题,请参考以下文章

    美团大脑百亿级知识图谱的构建及应用进展

    美团外卖美食知识图谱的迭代及应用

    美团基于知识图谱的剧本杀标准化建设与应用

    一文 Get 汽车知识的语义网络及图谱构建

    常识性概念图谱建设以及在美团场景中的应用

    行业知识图谱的构建及应用