2018-4-25个人征信
Posted shgwater
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2018-4-25个人征信相关的知识,希望对你有一定的参考价值。
业务梳理
得到每个用户的违约概率(信用评分)
目标变量:用户的违约概率
数据清洗
关联相关表
使用mysql将导入txt数据并且进行合并。
压缩数据
bank_detail 和 bill_detail 和 用户浏览行为表 不能直接进行关联,目前的想法,将这两张表的信息分别压缩到每个 user_id 上。
bank_detail 每个用户的信息压缩为:工资收入、工资外收入、净资产
####将txt文件导入数据库中####
use test
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bank_detail_train.txt"
into table bank_detail
fields terminated by ‘,‘;
select count(*) from bank_detail;
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bill_detail_train.txt"
into table bill_detail
fields terminated by ‘,‘;
select count(*) from bill_detail;
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\browse_history_train.txt"
into table browse_history
fields terminated by ‘,‘;
select count(*) from browse_history;
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\loan_time_train.txt"
into table loan_time
fields terminated by ‘,‘;
select * from loan_time;
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\overdue_train.txt"
into table overdue
fields terminated by ‘,‘;
select * from overdue;
load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\user_info_train.txt"
into table user_info
fields terminated by ‘,‘;
select * from user_info;
时间戳无法在mysql中最大为2030年,数据中的时间戳超过了这个时间范围。可以在r中将时间戳转换。
as.POSIXct(5894316387, origin = "1960-01-01", tz = "GMT")
信息汇总
我们的目标是将所有的信息汇总到每一个用户,定义关于用户的衍生变量。
建立模型
logistic模型
解释模型
以上是关于2018-4-25个人征信的主要内容,如果未能解决你的问题,请参考以下文章
高维打低维?互联网征信为这个目标,正努力解锁N+1种打开姿势