应用实践|知乎用户画像与实时数据的架构与实践
Posted ApacheDoris
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了应用实践|知乎用户画像与实时数据的架构与实践相关的知识,希望对你有一定的参考价值。
数据的及时性是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
03 效果
(2)某任务中间逻辑监控
该任务中间计算中其中部分规则未达标,导致该任务未通过。
(2)上线后
在上线 1 个月内,通过 DQC 系统规则,当前已发现了 14 个错异常,在 1 - 2h 左右发现,立即修复。对业务的影响降低到最小。
在系统上线后,在开发过程中,开发完相关数据,如有异常,就产生了异常报警,大幅节省了人工发现的成本,因为修复时间早,在后续开发启动前,就已经修复,极大程度降低开发过程中的返工成本。
四、总结与展望
01 针对实时业务数据
02 针对实时算法特征
4.1.2 工具建设方面
完成了实时数据领域和用户领域的布局,建设了相关的开发和维护工具,解决了先前在此方面无基础设施,无业务工具,开发成本高的问题。
搭建了集成、调度、质量系统。通过工具的方式降低了业务发展和迭代的成本,让业务快速发展,同时也保证了交付质量提高了业务基线。
4.1.3 人员组织方面
自上而下的拆分了实时数据和用户画像的能力,分为应用层、业务模型层、业务工具层和基础设施层。通过组织划分,明确了不同层次的边界和加速了业务目标的达成。
搭建并完善了多层次团队人员梯队。根据针对不同方向的同学,给予不同的 OKR 目标,做到跨层次方向隔离,同层次方向一致,同模块目标一致。共同为整体实时数据与用户画像服务建设而努力。
强化基础能力工具层的建设,持续降低基于实时数据方面的建设、交付成本。
提升数据质量工具覆盖能力,为业务模型提供质量保障,并提供基于实时数据的画像质量保障能力。
基于当前业务诉求,部分场景针对 5 分钟级实时无法满足,进一步探索秒级别复杂情况实时能力,并提供能力支持。
加强并针对用户画像、用户理解、用户洞察 & 模型等进一步建设。通过与具体业务结合,建设贴合业务场景的用户理解成果和相应的分析能力,找到业务的留存点。
进一步加强新的工具能力的建设,通过建设用户理解工具、用户分析工具,降低产生理解及对业务分析的成本,提升业务效率,快速发现业务价值。
- 作者介绍 -
侯容,知乎用户理解&数据赋能研发Leader,
主要负责实时数据、用户画像方向。
知乎平台团队招人啦,平台核心能力、用户理解、内容理解等方向工程和算法均有 HC,欢迎大家推荐或自荐 hourong@zhihu.com
社区人物志|王博:每一位你,都是前进道路上的一团星光。 社区人物志|张家锋:一个人可能走得更快,但一群人会走得更远 活动回顾|Apache Doris 向量化技术实现与后续规划 从NoSQL到Lakehouse,Apache Doris的13年技术演进之路
个推用户画像的实践与应用
“以用户为核心”的概念在互联网时代深入人心,然而要真正了解用户懂得用户,就不得不提到“用户画像”。 随着大数据技术的深入研究与应用,借助用户画像,企业或APP可以深入挖掘用户需求,从而实现精细化运营以及为精准营销打下坚实基础。本文将重点介绍何为用户画像,用户画像的构建流程以及应用场景。
用户画像,本质是数据能力的体现
用户画像,即用户信息的标签化,而从本质上来说,用户画像是数据的标签化。常见的用户画像体系有三种:结构化体系、非结构化体系和半结构化体系。非结构化体系没有明显的层级,较为独立。半结构化层次有一定的层级概念,但是没有过于严格的依赖关系。结构化体系有较强的层级结构。以一个简单的三级结构化标签为例,一级标签有基本属性和兴趣偏好,并且由此可以延伸至二级标签和三级标签,具体到不同的属性和兴趣爱好。
在互联网、电商领域,用户画像常用来作为精准营销、推荐系统的基础性工作,其作用总体包括:
(1)精准营销:根据历史用户特征,运营人员可以分析产品的潜在用户和用户的潜在需求,继而通过相应的手段,针对特定群体进行营销。
(2)用户分析:根据用户的属性、行为特征对用户进行分类后,可以统计不同特征下的用户数量、分布,分析不同用户画像群体的分布特征。
(3)数据挖掘:以用户画像为基础,开发人员可以构建推荐系统、搜索引擎、广告投放系统,提升服务精准度。
(4)服务产品:描绘产品的用户画像,对产品进行受众分析,更透彻地理解用户使用产品的心理动机和行为习惯,完善产品运营,提升服务质量。
(5)行业报告&用户研究:通过用户画像分析可以使运营人员更加了解行业动态,比如人群消费习惯、消费偏好分析、不同地域品类消费差异分析等。
个推用户画像的实践
个推依托多年推送服务的积累和强大的大数据分析能力,推出了个推画像SDK(个像),为APP开发者提供丰富的用户画像数据以及实时的场景识别能力。
个推独有的冷、热、温数据标签,可以有效分析用户的线上线下行为,深入挖掘用户特征,助力APP运营者全面了解用户属性。其中,“冷数据”是指用户的基础属性,改变的概率较小,如性别、年龄层次等;“温数据”则可以回溯用户近期活跃的应用和场景,具有一定的时效性;“热数据”是指用户当下的场景及实时的用户行为,帮助APP运营者抓住稍纵即逝的营销机会。
个推不仅拥有丰富的通用标签体系,还可以根据客户特定的需求联合建模,输出定制化的标签,以满足APP在不同场景需求下的运营。
规范画像构建流程
用户画像的构建需要技术和业务人员的共同参与,以避免形式化的用户画像。个推也有一些做法可供开发者们进行参考。
(1)标签体系设计。开发者需要先了解自身的数据,确定需要设计的标签形式。
(2)基础数据收集、多数据源数据融合。个推在构建用户画像时,会整合个推以及该APP自身的数据。
(3)实现用户统一标识。多数情况下,APP的众多用户分布于不同的账号体系中,个推会将其统一标识。
(4)用户画像特征层构建。即将每一个数据进行特征化。
(5)画像标签规则+算法建模。两者缺一不可,在实际的应用中,算法难以解决的问题,利用简单的规则也可以达到很好的效果。
(6)利用算法对所有用户打标签。
(7)画像质量监控。在实际的应用中,用户画像会产生一定的波动,为了解决这个问题,个推搭建了相应的监控系统,对画像的质量进行监控。
个推用户画像构建的整体流程,可以分为三个部分,第一,基础数据处理。基础数据包括用户设备信息、用户的线上APP偏好以及线下场景数据等。
第二,画像中间数据处理。处理结果包括线上APP偏好特征和线下场景特征等。
第三,画像信息表。表中应有四种信息:设备基础属性;用户基础画像,包括用户的性别、年龄层次、相关消费水平等;用户兴趣画像,即用户更有兴趣的方向,如用户更偏好比价类APP还是海淘类APP;用户其它画像等。
在个推用户画像构建的过程中,机器学习占据了较为重要的位置。机器学习主要是海量数据持续更新、数据清洗、数据存储的过程。个推更多地利用机器学习平台进行相应的预测分析、模型输出等。
画像质量的关注有两个重点,第一,如何优化质量。个推会对用户画像的模型定期地进行修改和优化。第二,关注画像质量波动情况,对异常变化及时预警。
个推用户画像应用
个推画像SDK的集成,可以丰富APP的用户分析维度,其主要应用体现在两方面:第一,精准推荐,APP的运营者可以通过个像提供的性别、年龄层次、兴趣爱好、场景等丰富标签,为不同的用户推荐不同的内容,以达到更加精细化的运营,并提升用户活跃度和留存率。
第二,用户聚类,个推可以帮助APP处理用户数据,补全用户画像,建立用户的聚类模型。同时,通过用户特征分析,个推还能够将APP的老用户映射到某一聚类,以此产出APP的目标聚类,最终助力APP运营者针对不同用户群体制定更加精准的运营策略。
“千万人撩你,不如一人懂你”,当互联网逐渐步入大数据时代,APP只有真正地了解用户,才能得到用户并留住用户。基于个推完备的大数据计算架构,个推画像SDK的接入,不仅可以帮助开发人员提高开发决策的效率,也可以帮助APP运营人员开展精细化运营,从而提升企业的营销效率和市场竞争力。
以上是关于应用实践|知乎用户画像与实时数据的架构与实践的主要内容,如果未能解决你的问题,请参考以下文章