征信画像项目实施文档摘要
Posted 彭宇成
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了征信画像项目实施文档摘要相关的知识,希望对你有一定的参考价值。
项目背景
消金分期产品,当前主要引用与依赖同盾等第三征信公司相关产品做线上风控。这些风控产品没有融合与应用集团自身庞大的零售数据与消金应用自身积累的丰富的用户行为数据,不足以帮助消金团队识别线上商户与消费者的套现欺诈行为。本项目旨在为消金风控团队提供用户风控相关画像标签,以期最大程度识别消费者的欺诈行为。
需 求
功能性需求
实时向消金团队提供包括姓名、设备号、注册黑名单、1天内成功申请3次以上、申请GPS地址与旗舰店地址距离小于等于500米在内的21个画像标签获取服务。具体详见:征信画像业务口径文档.docx
非功能性需求
- 分钟级别实时提供标签数据,最好能做到秒级别
- 系统高可用、可扩展性强,能有效支撑征信画像二期项目运行
技术路线
一. 总体设计
数据采集
涉及到美的分期系统的业务数据与用户行为数据、集团旗舰店零售数据的采集,其中:
1)业务数据
考虑到尽量减少与业务系统的耦合度,这里通过开源数据采集工具StreamSet 实时监听与读取mysql主库的Binlog日志文件,来实现业务数据的实时采集。并将采集到的数据注入到流式数据中转组件 kafka 中。
2)行为数据
前期团队已通过JS SDK埋点采集了除用户位置外的大部分行为数据。这里只需要前端开发人员,按照指定的数据格式采集与上传用户的位置数据:
格式: JSON
发送方式: http post
发送字段:用户账号(user_name)、操作时间(action_time)、GPS位置(longi_latitude)、来源渠道(user_usource)与 页面名称(curr_page_title)
举 例 :
"user_name": "137",
"longi_latitude": "",
"user_usource": "weixin",
"curr_page_title": "",
"action_time": 1521846970301
具体行为数据采集方案明细,详见 H5 相关应用数据采集 方案。
注:非地址外的数据格式如下
"curr_page_url": "http://",
"remote_addr": "127.0.0.1",
"last_ref": null,
"user_usource": "weixin",
"user_name": "137",
"user_vertion": "11_2_6",
"opt_system_type": "ios",
"sessionId": "B41C0",
"curr_page_title": "家电分期",
"http_user_agent": "Mozilla",
"action_time": 1521846970301,
"deviceInformation": "",
"http_referer": "http://",
"button_link_name": null,
"device_resolution": "1242,2208",
"user_only": "198F5606",
"last_title": null,
"action_type_name": "p_v"
3)零售数据
整合集团零售相关表数据,生成 征信标签判断规则表,并同步到 ES 中。
数据中转
数据处理
数据服务
以 REST API对外提供服务,详见
画像标签获取 api 说明文档.docx。
二. 数据结构与取数口径
HIVE 表结构
需要把集团零售相关数据整合到一张hive外部表中,并关联 ES 中的一个类型。
ES 索引设计
1) 数据处理模块
待定。
2)数据服务模块
索引名称:user_label 类型名称 : loan
文档字段及相关说明如下:
系统部署
软件版本
系统设计到的主要软件包与开发语言如下:
说明:es-hadoop等相关第三方依赖包会根据系统开发和测试进度进行必要的调整。
部署框架
参考
待整理。
以上是关于征信画像项目实施文档摘要的主要内容,如果未能解决你的问题,请参考以下文章
一文搞定ClickHouse在苏宁用户画像场景的实践(建议收藏)