2018-4-25个人征信

Posted shgwater

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2018-4-25个人征信相关的知识,希望对你有一定的参考价值。

业务梳理

得到每个用户的违约概率(信用评分)

目标变量:用户的违约概率

数据清洗

关联相关表

使用mysql将导入txt数据并且进行合并。

压缩数据

bank_detail 和 bill_detail 和 用户浏览行为表 不能直接进行关联,目前的想法,将这两张表的信息分别压缩到每个 user_id 上。

bank_detail 每个用户的信息压缩为:工资收入、工资外收入、净资产

####将txt文件导入数据库中####
use test

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bank_detail_train.txt" 
into table bank_detail
  fields terminated by ‘,‘;
select count(*) from bank_detail;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\bill_detail_train.txt" 
into table bill_detail
  fields terminated by ‘,‘;
select count(*) from bill_detail;


load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\browse_history_train.txt" 
into table browse_history
  fields terminated by ‘,‘;
select count(*) from browse_history;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\loan_time_train.txt" 
into table loan_time
  fields terminated by ‘,‘;
select * from loan_time;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\overdue_train.txt" 
into table overdue
  fields terminated by ‘,‘;
select * from overdue;

load data infile "C:\\ProgramData\\MySQL\\MySQL Server 5.7\\Uploads\\user_info_train.txt" 
into table user_info
  fields terminated by ‘,‘;
select * from user_info;

时间戳无法在mysql中最大为2030年,数据中的时间戳超过了这个时间范围。可以在r中将时间戳转换。

as.POSIXct(5894316387, origin = "1960-01-01", tz = "GMT")  

信息汇总

我们的目标是将所有的信息汇总到每一个用户,定义关于用户的衍生变量。

建立模型

logistic模型

解释模型

以上是关于2018-4-25个人征信的主要内容,如果未能解决你的问题,请参考以下文章

怎么知道自己有没有上失信黑名单?查征信到哪查?

查信用报告怎么查?

高维打低维?互联网征信为这个目标,正努力解锁N+1种打开姿势

公开信息查询的一些方法,查征信,查婚姻状况,查询公开个人信息

Web3中的征信系统该如何构建?

支付宝查征信你的信用存在异常