一种基于实时大数据的图指标解决方案

Posted Jcloud

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一种基于实时大数据的图指标解决方案相关的知识,希望对你有一定的参考价值。

在电商金融等多个领域,现在主要利用图来建模,并由业务人员根据图指标提出需求。但图指标时效性差、创建修改程序十分繁琐,元数据没有同意的管理分类,这导致开发运维都十分困难,根据此痛点,今天来介绍一项基于实时大数据的图指标解决方案。

作者:京东科技 尚建平

1. 现有技术

在电商、金融风控领域,使用图来建模,将大量的人员和事件编织成一张庞大的图关系网络,构建图指标来识别异常人员和群体风险行为,目前图指标现有实现方式是基于离线数据或t+1数据构建图关系网络,图指标由业务人员或需求人员根据业务需要提出具体需求由开发人员临时开发、测试、部署、上线。

2. 现有技术的缺点

第一,图指标时效性差,无法实时更新图关系数据,在某些时效性强的场景下图指标不可用。

第二,创建、修改图指标流程繁琐,业务及需求人员无法单独实现,需开发人员临时开发。

第三,图指标相关元数据没有统一管理及分类,无法查看、修改、复用、追溯。

3. 本发明技术方案

3.1 本发明所要解决的技术问题(即发明目的)

第一,接收实时大数据流,实时构建图关系网络,图指标可基于实时图关系数据查询。

第二,业务及需求人员对图指标可视化创建、测试、上线,无需开发人员参与。

第三,图指标相关元数据进行统一管理及分类,可灵活查看、修改、复用、追溯。

3.2 本发明的完整技术方案

3.2.1 系统原理图、结构说明图或流程图

图1-系统原理图

3.2.2 技术方案详细描述

如图2-系统流程图所示,方案详细描述如下:

步骤1:实时图指标平台获取用户设计图指标相关的元数据信息,包括数据源、图模型、图指标等元数据。数据源信息描述了接入数据源类型和数据源字段信息,图模型信息描述图关系网络的构建模型及构建数据的字段映射信息,图指标信息描述图指标计算逻辑信息。

步骤2:实时图指标平台根据数据源信息接收外部实时流数据。数据源主要是可构建图关系网络的人员及事件信息,包括用户登入、注册、订单交易、风险决策等数据源。

步骤3:实时图指标平台将接收的实时流数据进行清洗、转换、分流。将接收的数据源中无效的数据及非法数据清除,并根据不同图模型数据要求对数据进行转换、分流。

步骤4:实时图指标平台根据图模型信息及数据字段映射信息,将实时数据流转换生成可插入图关系数据的类SQL。将人员及事件信息转换成用类SQL表示的用户、设备等节点及用户与设备节点之间关联的登入、注册等边数据。

步骤5:实时图指标平台通过对nebula图数据库各图空间执行类SQL将图关系数据插入更新至nebula图数据库。通过实时插入更新类SQL表示的节点及关联边数据,将大量的人员和事件编织成一张庞大的图关系网络,并实时更新。

步骤6:实时图指标平台接收外部系统查询图指标结果请求及入参,查询用户可视化配置的图指标相关元数据信息。如查询用户x近30天内使用过的所有设备关联的注册金白条用户数量。

步骤7:实时图指标平台将可视化配置的图指标元数据信息转换成用类SQL表示的图指标计算逻辑。如从用户x节点查找近30天登入、注册等边关联出的所有设备,再反向查找这些设备被多少注册过金白条的用户使用过。

步骤8:实时图指标平台通过对nebula图数据库执行查询类SQL,获取图指标查询结果,根据业务情况调整图指标阈值,识别异常人员和群体风险行为。如用户x近30天内使用过的所有设备关联的注册金白条用户数量大于5时,那么识别出用户x是风险用户。

图2-系统流程图

3.3 本发明希望保护的技术创新点

本发明通过接收实时大数据流,实时构建图关系网络,实现图指标数据实时查询。

本发明通过可视化配置维护图指标相关信息,实现图指标及相关元数据统一管理、快速部署上线。

以上是关于一种基于实时大数据的图指标解决方案的主要内容,如果未能解决你的问题,请参考以下文章

指标统计:基于流计算 Oceanus(Flink) 实现实时 UVPV 统计

AliExpress基于Flink的广告实时数仓建设

AliExpress基于Flink的广告实时数仓建设

基于Kafka+Flink+Redis的电商大屏实时计算案例

基于spark排序的一种更廉价的实现方案-附基于spark的性能测试

基于spark排序的一种更廉价的实现方案-附基于spark的性能测试