应用实践|知乎用户画像与实时数据的架构与实践

Posted ApacheDoris

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了应用实践|知乎用户画像与实时数据的架构与实践相关的知识,希望对你有一定的参考价值。


数据的及时性是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。


02    解决方案
(1)全流程的数据链路和各级质量保证方法
 

 
(2)业务架构

 
(3)业务流程


 

03    效果

(1)某业务健康情况监控
以通过 DQC 监控的某一个业务的健康情况,该业务由多个导出任务和中间计算任务及部分数据源组成,当前情况是一切正常。期间如果出现某节点任意异常后,都可及时发现。
 

 

(2)某任务中间逻辑监控

 该任务中间计算中其中部分规则未达标,导致该任务未通过。


04    收益
(1)上线前
  • 早期无类似 DQC 系统保证的前提下,我们很多问题都是天级别甚至上线后,才发现存在数据异常,出现过 3 次问题,造成的返工和交付不靠谱的情况,对业务影响巨大。
  • 早期开发中,在开发过程需要不断针对各种细节规则进行比对,总会花费一定时间逐层校验,成本巨大。

  • (2)上线后

  • 在上线 1 个月内,通过 DQC 系统规则,当前已发现了 14 个错异常,在 1 - 2h 左右发现,立即修复。对业务的影响降低到最小。

  • 在系统上线后,在开发过程中,开发完相关数据,如有异常,就产生了异常报警,大幅节省了人工发现的成本,因为修复时间早,在后续开发启动前,就已经修复,极大程度降低开发过程中的返工成本。




  • 四、总结与展望


    4.1 收益总结
    4.1.1 业务发展方面

    01    针对实时业务数据
  • 提供了基于时效性的热点、潜力的把控。加速业务在生产、消费方面的使用,进而提升优质创作量及用户对内容消费能力。
  • 同时提供了提供实时的复杂计算的外显指标,加强用户体验,下线了业务后端通过脚本计算指标的方法,降低了业务的复杂性,节约了成本,提升人效。

  • 02    针对实时算法特征
  • 提供了基于创作者、内容、消费者的实时算法特征,与算法团队共同在多个项目中,针对 DAU、留存、用户付费等核心指标有了明显的提升。

  • 03    针对用户画像
  • 完善和升级用户筛选,做到多维、多类型的定向筛选,并接入了运营平台、营销平台等系统,提高了业务效率,降低了业务人员进行人群定向的成本。
  • 搭建和完善用户分析,做到多角度用户分析,定向用户分析报告 0 成本,助力业务部门快速把握核心客户市场。

  • 4.1.2 工具建设方面

  • 完成了实时数据领域和用户领域的布局,建设了相关的开发和维护工具,解决了先前在此方面无基础设施,无业务工具,开发成本高的问题。

  • 搭建了集成、调度、质量系统。通过工具的方式降低了业务发展和迭代的成本,让业务快速发展,同时也保证了交付质量提高了业务基线。

  • 4.1.3 人员组织方面

  • 自上而下的拆分了实时数据和用户画像的能力,分为应用层、业务模型层、业务工具层和基础设施层。通过组织划分,明确了不同层次的边界和加速了业务目标的达成。

  • 搭建并完善了多层次团队人员梯队。根据针对不同方向的同学,给予不同的 OKR 目标,做到跨层次方向隔离,同层次方向一致,同模块目标一致。共同为整体实时数据与用户画像服务建设而努力。

  •  
    4.2 未来展望
     从 2021 年 8 月成立至今,我们一直思考如何提供更好的实时数据服务?实时数据能建设什么方面的应用,为业务创造价值?如何将用户画像服务做好?用户画像服务的筛选、分析能力如何为业务创造更大价值?摸着石头过河的同时,我们也在不断摸索和建设相关的业务能力和基础建设。在明年的发展中,我们还会针对以下方面进一步发展:
     
    01    基于实时数据
  • 强化基础能力工具层的建设,持续降低基于实时数据方面的建设、交付成本。

  • 提升数据质量工具覆盖能力,为业务模型提供质量保障,并提供基于实时数据的画像质量保障能力。

  • 基于当前业务诉求,部分场景针对 5 分钟级实时无法满足,进一步探索秒级别复杂情况实时能力,并提供能力支持。

  • 02    基于用户画像
  • 加强并针对用户画像、用户理解、用户洞察 & 模型等进一步建设。通过与具体业务结合,建设贴合业务场景的用户理解成果和相应的分析能力,找到业务的留存点。

  • 进一步加强新的工具能力的建设,通过建设用户理解工具、用户分析工具,降低产生理解及对业务分析的成本,提升业务效率,快速发现业务价值。





  • - 作者介绍 -

    侯容,知乎用户理解&数据赋能研发Leader,
    主要负责实时数据、用户画像方向。


    知乎平台团队招人啦,平台核心能力、用户理解、内容理解等方向工程和算法均有 HC,欢迎大家推荐或自荐 hourong@zhihu.com



    —— End ——



    欢迎关注:
    Apache Doris(incubating)官方公众号


    【精彩文章】
    社区人物志|王博:每一位你,都是前进道路上的一团星光。
    社区人物志|张家锋:一个人可能走得更快,但一群人会走得更远
    活动回顾|Apache Doris 向量化技术实现与后续规划
    从NoSQL到Lakehouse,Apache Doris的13年技术演进之路


    相关链接:
    Apache Doris官方网站:
    http://doris.incubator.apache.org
    Apache Doris Github:
    https://github.com/apache/incubator-doris
    Apache Doris 开发者邮件组:
    dev@doris.apache.org 







    个推用户画像的实践与应用

    “以用户为核心”的概念在互联网时代深入人心,然而要真正了解用户懂得用户,就不得不提到“用户画像”。 随着大数据技术的深入研究与应用,借助用户画像,企业或APP可以深入挖掘用户需求,从而实现精细化运营以及为精准营销打下坚实基础。本文将重点介绍何为用户画像,用户画像的构建流程以及应用场景。

    用户画像,本质是数据能力的体现

    用户画像,即用户信息的标签化,而从本质上来说,用户画像是数据的标签化。常见的用户画像体系有三种:结构化体系、非结构化体系和半结构化体系。非结构化体系没有明显的层级,较为独立。半结构化层次有一定的层级概念,但是没有过于严格的依赖关系。结构化体系有较强的层级结构。以一个简单的三级结构化标签为例,一级标签有基本属性和兴趣偏好,并且由此可以延伸至二级标签和三级标签,具体到不同的属性和兴趣爱好。

    技术分享图片
    在互联网、电商领域,用户画像常用来作为精准营销、推荐系统的基础性工作,其作用总体包括:

    (1)精准营销:根据历史用户特征,运营人员可以分析产品的潜在用户和用户的潜在需求,继而通过相应的手段,针对特定群体进行营销。

    (2)用户分析:根据用户的属性、行为特征对用户进行分类后,可以统计不同特征下的用户数量、分布,分析不同用户画像群体的分布特征。

    (3)数据挖掘:以用户画像为基础,开发人员可以构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。

    (4)服务产品:描绘产品的用户画像,对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。

    (5)行业报告&用户研究:通过用户画像分析可以使运营人员更加了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析等。

    个推用户画像的实践

    个推依托多年推送服务的积累和强大的大数据分析能力,推出了个推画像SDK(个像),为APP开发者提供丰富的用户画像数据以及实时的场景识别能力。

    个推独有的冷、热、温数据标签,可以有效分析用户的线上线下行为,深入挖掘用户特征,助力APP运营者全面了解用户属性。其中,“冷数据”是指用户的基础属性,改变的概率较小,如性别、年龄层次等;“温数据”则可以回溯用户近期活跃的应用和场景,具有一定的时效性;“热数据”是指用户当下的场景及实时的用户行为,帮助APP运营者抓住稍纵即逝的营销机会。

    个推不仅拥有丰富的通用标签体系,还可以根据客户特定的需求联合建模,输出定制化的标签,以满足APP在不同场景需求下的运营。

    技术分享图片

    规范画像构建流程

    用户画像的构建需要技术和业务人员的共同参与,以避免形式化的用户画像。个推也有一些做法可供开发者们进行参考。

    (1)标签体系设计。开发者需要先了解自身的数据,确定需要设计的标签形式。

    (2)基础数据收集、多数据源数据融合。个推在构建用户画像时,会整合个推以及该APP自身的数据。

    (3)实现用户统一标识。多数情况下,APP的众多用户分布于不同的账号体系中,个推会将其统一标识。

    (4)用户画像特征层构建。即将每一个数据进行特征化。

    (5)画像标签规则+算法建模。两者缺一不可,在实际的应用中,算法难以解决的问题,利用简单的规则也可以达到很好的效果。

    (6)利用算法对所有用户打标签。

    (7)画像质量监控。在实际的应用中,用户画像会产生一定的波动,为了解决这个问题,个推搭建了相应的监控系统,对画像的质量进行监控。

    个推用户画像构建的整体流程,可以分为三个部分,第一,基础数据处理。基础数据包括用户设备信息、用户的线上APP偏好以及线下场景数据等。

    第二,画像中间数据处理。处理结果包括线上APP偏好特征和线下场景特征等。

    第三,画像信息表。表中应有四种信息:设备基础属性;用户基础画像,包括用户的性别、年龄层次、相关消费水平等;用户兴趣画像,即用户更有兴趣的方向,如用户更偏好比价类APP还是海淘类APP;用户其它画像等。

    在个推用户画像构建的过程中,机器学习占据了较为重要的位置。机器学习主要是海量数据持续更新、数据清洗、数据存储的过程。个推更多地利用机器学习平台进行相应的预测分析、模型输出等。

    技术分享图片
    画像质量的关注有两个重点,第一,如何优化质量。个推会对用户画像的模型定期地进行修改和优化。第二,关注画像质量波动情况,对异常变化及时预警。

    个推用户画像应用

    个推画像SDK的集成,可以丰富APP的用户分析维度,其主要应用体现在两方面:第一,精准推荐,APP的运营者可以通过个像提供的性别、年龄层次、兴趣爱好、场景等丰富标签,为不同的用户推荐不同的内容,以达到更加精细化的运营,并提升用户活跃度和留存率。

    第二,用户聚类,个推可以帮助APP处理用户数据,补全用户画像,建立用户的聚类模型。同时,通过用户特征分析,个推还能够将APP的老用户映射到某一聚类,以此产出APP的目标聚类,最终助力APP运营者针对不同用户群体制定更加精准的运营策略。

    “千万人撩你,不如一人懂你”,当互联网逐渐步入大数据时代,APP只有真正地了解用户,才能得到用户并留住用户。基于个推完备的大数据计算架构,个推画像SDK的接入,不仅可以帮助开发人员提高开发决策的效率,也可以帮助APP运营人员开展精细化运营,从而提升企业的营销效率和市场竞争力。

    以上是关于应用实践|知乎用户画像与实时数据的架构与实践的主要内容,如果未能解决你的问题,请参考以下文章

    知乎用户画像与实时数据架构实践

    个推用户画像的实践与应用

    日处理20亿数据,实时用户行为服务系统架构实践

    携程日处理20亿数据,实时用户行为服务系统架构实践

    实时Web与WebSocket实践

    实时Web与WebSocket实践