R语言-来自Prosper的贷款数据探索

Posted 月上贺兰

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言-来自Prosper的贷款数据探索相关的知识,希望对你有一定的参考价值。

案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人。用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率。潜在贷方则为数额和利率展开竞价。

    本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测哪些人贷款后会还款、哪些人会赖账。

  1.探索数据集

1 loandata = read.csv("prosperLoanData.csv")
2 str(loandata)

  结论:一共有81个变量,113937个对象

  2.选择分析的变量

由于有81个变量,为简化分析,仅选取其中有代表性的13个变量。变量选取如下:

1. **ListingCreation**: 列表创建时间。

2. **Term**: 贷款期限,期限越长的,利率应当越高

3. **LoanStatus**: 贷款状态(Completed、Current、Defaulted、Chargedoff等)

4. **BorrowerBorrowerRate**: 借款利率。

5. **DelinquenciesLast7Years**: 信用资料提交时借款人过去7年违约次数。

6. **StatedMonthlyIncome**: 客户自己声称的月收入。

7. **IsBorrowerHomeowner**: 借款人是否拥有住房。

8. **InquiriesLast6Months**: 最近6个月的征信记录查询次数。一般来说,征信查询次数越多,该主体的贷款申请就越多。

9. **DebtToIncomeRatio**: 借款人的债务收入比,债务收入比越高说明筹资者财务状况越差,还款能力越低。

10. **Occupation**: 贷款人职业

11. **CreditGrade/ProsperRating(Alpha)**: 信用等级,前者反映的是2009年7月1日前客户的信用等级,后者反映的是2009年7月1日后的信用等级。信用等级越高,其偿债能力越强。

12. **CreditScore**: 由消费信用公司提供的消费信用评分,同信用评级作用。

13. **BankCardUse**: 信用资料提交时借款人信用卡使用额度和信用卡总透支额度的百分比,本文将这个数据分成四组(mild use; medium use; heavy use; super use)

 

  3.数据预处理

    3.1贷款状态

# 查看贷款状态
1
table(loandata$LoanStatus)

技术分享图片

     

 # 2.整合数据
# 针对LoanStatus进行重构
# 1.将所有含有"Past Due"字段的值统一为"PastDue"
# 2.将"Cancelled"归类到"Current"中
# 3.将"defaulted"归类到"Chargedoff"中
# 4.将"FinalPaymentInProgress"归类到"Completed"中
1
PastDue <- c("Past Due (>120 days)", 2 "Past Due (1-15 days)", 3 "Past Due (16-30 days)", 4 "Past Due (31-60 days)", 5 "Past Due (61-90 days)", 6 "Past Due (91-120 days)") 7 loandata$LoanStatus <- as.character(loandata$LoanStatus) 8 loandata$LoanStatus[loandata$LoanStatus %in% PastDue] <- "PastDue" 9 loandata$LoanStatus[loandata$LoanStatus == "Cancelled"] <- "Current" 10 loandata$LoanStatus[loandata$LoanStatus == "Defaulted"] <- "Chargedoff" 11 loandata$LoanStatus[loandata$LoanStatus == "FinalPaymentInProgress"] <- "Completed"

 技术分享图片

1 # 3.再次整合数据
2 # 1.然后将"PastDue"与"Chargedoff"合并,表示未按时还款
3 # 2.将"Current"和"Completed"合并,表示按时还款未出现不良记录的
4 loandata$LoanStatus[loandata$LoanStatus == "PastDue"] <- "Chargedoff"
5 loandata$LoanStatus[loandata$LoanStatus == "Current"] <- "Completed"
6 table(loandata$LoanStatus)

技术分享图片

    3.2消费信用评分

1 # 对借款人的消费信用评级,数据中有高低范围,将这两个数值取平均值做计算
2 loandata$CreditScore <- (loandata$CreditScoreRangeLower + loandata$CreditScoreRangeUpper) / 2

    3.3信用评级

 1 # 因2009年7月1日,Prosper的信用评级模型发生了改变,所以需要进行分段处理
 2 
 3 # 先处理2009年7月1日前的数据
 4 loandata$CreditGrade <- ordered(loandata$CreditGrade,
 5                                 levels = c("NC", "HR", "E", "D", "C", "B", "A", "AA"))
 6 # 再处理2009年7月1日后的数据
 7 loandata$ProsperRating..Alpha. <- ordered(loandata$ProsperRating..Alpha.,
 8                                           levels = c("HR", "E", "D", "C", "B", "A", "AA"))
 9 # 因为2009年7月1日是一个数据节点,因此将数据分成两段处理
10 loandata$LoanOriginationDate <- as.Date(loandata$LoanOriginationDate)
11 loandata$Phase[loandata$LoanOriginationDate > "2009-07-01"] <- "After 2009"
12 loandata$Phase[loandata$LoanOriginationDate < "2009-07-01"] <- "Before 2009"
13 table(loandata$Phase)

技术分享图片

    3.4信用卡使用程度

 1 #定义"Mild Use"
 2 loandata$BankCardUse[
 3     loandata$BankcardUtilization < quantile(loandata$BankcardUtilization, 
 4                                             probs = 0.25, "na.rm" = TRUE)
 5 ] <- "Mild Use"
 6 
 7 #定义“Medium Use”
 8 loandata$BankCardUse[
 9     loandata$BankcardUtilization >= quantile(loandata$BankcardUtilization,
10                                              probs = 0.25, "na.rm" = TRUE) 
11     &
12         loandata$BankcardUtilization < quantile(loandata$BankcardUtilization,
13                                                     probs = 0.5, "na.rm"= TRUE)
14 ] <- "Medium Use"
15 
16 #定义“Heavy Use”
17 loandata$BankCardUse[
18     loandata$BankcardUtilization >= quantile(loandata$BankcardUtilization,
19                                              probs = 0.5, "na.rm" = TRUE)
20     &
21         loandata$BankcardUtilization < quantile(loandata$BankcardUtilization,
22                                                 probs = 0.75, "na.rm" = TRUE)
23 ] <- "Heavy Use"
24 
25 #定义“Super Use”
26 loandata$BankCardUse[loandata$BankcardUtilization >= 0.75] <- "Super Use"
27 
28 loandata$BankCardUse <- factor(loandata$BankCardUse,
29                                levels = c("Mild Use", 
30                                           "Medium Use", 
31                                           "Heavy Use", 
32                                           "Super Use"))
33 
34 table(loandata$BankCardUse)

技术分享图片

  4.探索数据集

    4.1单变量探索

      4.1.1贷款期限

1 ggplot(aes(x = as.factor(Term)), data = loandata) +
2     geom_histogram(stat = "count") +
3     xlab("Term")
4 table(loandata$Term, dnn = ("Term"))

技术分享图片

  技术分享图片

        结论:一年期(12个月)的有1614笔,三年期(36个月)的有87778笔,五年期(60个月)的有24545笔。由此,平台上的贷款以中长期为主,且三年期占绝大多数。经查阅资料发现,Prosper平台是          2009年以后才开始提供一年期和五年期贷款品种。

        4.1.2贷款利率

ggplot(aes(x = BorrowerRate), data = loandata) +
    geom_histogram(binwidth = 0.01) +
    scale_x_continuous(breaks = seq(0, 0.5, 0.05)) +
    facet_wrap(~ Term, ncol = 3)

技术分享图片

        结论:平台上的借款利率多集中在0.08至0.2这个区间,另外,利率0.32附近也拥有大量的观测值。并且贷款利率似乎与贷款期限关系并不明显,未如经验判断的“期限越长、利率越高”。

        4.1.3过去7年的违约次数

1 ggplot(aes(x = DelinquenciesLast7Years), data = loandata) +
2     geom_density(aes(fill = I("grey"))) +
3     coord_cartesian(xlim = c(0, quantile(loandata$DelinquenciesLast7Years,
4                                                probs = 0.95, "na.rm" = TRUE)))

技术分享图片

        结论:大部分借款人在过去7年内的违约次数均为0,这说明整个平台借款人的信用状况较好

        4.1.4月收入,月收入很大情况下能够反映借贷人的还款能力

1 ggplot(aes(x = StatedMonthlyIncome), 
2        data = subset(loandata, loandata$StatedMonthlyIncome <
3                          quantile(loandata$StatedMonthlyIncome, 
4                                   probs = 0.95, "na.rm" = TRUE))) +
5     geom_histogram(binwidth = 500) +
6     scale_x_continuous(breaks = seq(0, 21000, 500)) +
7     geom_vline(xintercept = 2500, color = "red") +
8     geom_vline(xintercept = 6000, color = "red")

技术分享图片

        结论:大部分借贷人的月薪在2500~6000美金之间

          4.1.5是否拥有房屋(有房子的要比没有房屋的人偿还能力强)

1 ggplot(aes(x = IsBorrowerHomeowner), data = loandata) +
2     geom_bar()

技术分享图片

        结论:有房屋的借贷人略微大于没房屋的借贷人

        4.1.6借款人征信查询的次数,征信查询的次数越多表示借款人近期的申请的贷款越多,资金越紧张

ggplot(aes(x = InquiriesLast6Months, fill = I("grey")), data = loandata) +
    geom_density(binwidth = 1) +
    geom_vline(xintercept = quantile(loandata$InquiriesLast6Months, 
                                     probs = 0.95, "na.rm" = TRUE), 
               linetype = "dashed", color = "red") +
    coord_cartesian(xlim = c(0, quantile(loandata$InquiriesLast6Months,
                                         probs = 0.95, "na.rm" = TRUE)))

技术分享图片

        结论:95%的借款人征信查询次数在5次及以下

        4.1.7负债收益比(反映了借款人的杠杆率,如果大于1表示很难偿还贷款,极易引发坏账)

1 ggplot(aes(x = DebtToIncomeRatio), data = loandata) +
2     geom_histogram(binwidth = 0.05) +
3     scale_x_continuous(breaks = seq(0, 10, 0.5)) +
4     geom_vline(xintercept = quantile(loandata$DebtToIncomeRatio, 
5                                      probs = 0.95, "na.rm" = TRUE),
6                linetype = "dashed", color = "red")

技术分享图片

        结论:95%的借款人负债收入比小于0.5,另外注意到,极少数人的负债收入比达到甚至超过10,总体来说平台的负债收益比较低,资质较好

        4.1.8借款人职业

data_count <- loandata %>% 
    group_by(Occupation) %>% 
    summarise(n = n())

ggplot(aes(x = reorder(Occupation, -n), y = n),
       data = data_count) +
    geom_bar(stat = "identity") +
    theme(axis.text.x = element_text(angle = 90,
                                     vjust = 0.5,
                                     hjust = 1))

技术分享图片

        结论:职业中,选择“other”的人数最多,说明很多人在申请贷款时出于隐私或者其他原因不选择职业,该数据的真实性存疑

        4.1.9贷款状态

ggplot(aes(x = LoanStatus), data = loandata) +
    geom_bar()
table(loandata$LoanStatus)

技术分享图片

技术分享图片

        结论:Prosper平台整体贷款的违约率约为16.74%

        4.1.10贷款日期

1 loandata$ListingCreationDate <- as.Date(loandata$ListingCreationDate)
2 
3 ggplot(aes(x = ListingCreationDate), data = loandata) +
4     geom_histogram()

技术分享图片

        结论:09年前后,平台贷款成交量几乎为0,通过查阅相关资料发现,Prosper平台因涉诉被迫于2008年11月24日暂停运营,并于2009年7月1日重新开始营运。

        4.1.11客户信用评价

 1 p1 <- ggplot(aes(x = CreditScore), data = loandata) +
 2     geom_histogram()+
 3     coord_cartesian(xlim = c(400, 900)) +
 4     scale_x_continuous(breaks = seq(400, 900, 50)) +
 5     ggtitle("The Histogram of Borrowers‘ CreditScore")
 6 
 7 p2 <- ggplot(aes(x = CreditGrade),
 8              data = subset(loandata, LoanOriginationDate < "2009-07-01")) +
 9     geom_bar() +
10     scale_x_discrete(limits = c("HR","E","D","C","B","A","AA")) +
11     ggtitle("CreditGrade Before 2009")
12     
13 p3 <- ggplot(aes(x = ProsperRating..Alpha.),
14              data = subset(loandata, LoanOriginationDate > "2009-07-01")) +
15     geom_bar() +
16     scale_x_discrete(limits = c("HR","E","D","C","B","A","AA")) +
17     ggtitle("CreditGrade After 2009")
18 
19 grid.arrange(p1, p2, p3, ncol = 1)

技术分享图片

        结论:大部分借款人的消费信用评分都高于600分,集中于700分左右,而2009年前后的信用评级也显示出较为优秀的信用资质B级。
        4.1.12信用卡使用情况

1 ggplot(aes(BankCardUse), 
2        data = subset(loandata, !is.na(BankcardUtilization))) +
3     geom_bar()

技术分享图片

        结论:大部分人都处于Super Use状态,借款人的还款能力会因此而打折扣

     单变量分析总结论: 

数据集中共含有113937笔贷款记录,每笔记录均有12个特征描述,分别是:贷款日期(ListingCreationDate)、贷款期限(Term)、贷款状态(LoanStatus)、贷款利率(BorrowerRate)、借款人过去7年违约次数(DelinquenciesLast7Years)、借款人月收入(StatedMonthlyIncome)、借款人是否拥有房屋(IsBorrowerHomeowner)、借款人最近6个月的征信查询次数(InquiriesLast6Months)、借款人负债收入比(DebtToIncomeRatio)、借款人职业(Occupation)、借款人信用评价(CreditScore / CreditGrade / ProsperRating(Alpha))及借款人的信用卡使用情况(BankCardUse)。

这12个特征中,有4个特征用于描述贷款的特点,包括贷款日期、贷款期限、贷款状态和贷款利率。

有8个特征用于描述借款人主体的特点,包括过去7年违约次数、月收入、是否拥有房屋、最近6个月的征信查询次数、负债收入比、职业、信用评价及信用卡使用情况。

通过上一部分的初步探索,发现以下特点:

1. 大部分贷款的期限为三年期。

2. 整个平台贷款的违约率为16.74%3. 大部分贷款利率集中在0.08至0.2这个区间,0.32附近也有较大的成交量。

4. 平台上的借款人整体信用资质较好。

5. 从信用卡使用角度来看,借款人的还款压力较大。

6. 大部分借款人的月收入集中在2500至6000美元之间。

7. 拥有房屋的借款人与未拥有房屋的借款人数量大致相当。

8. 出于隐私或者其他原因,借款人申请贷款时职业一项选择“other”的极多。

      4.2双变量探索

        4.2.1贷款利率随着时间变化的趋势

ggplot(aes(x = ListingCreationDate, y = BorrowerRate), data = loandata) +
    geom_point(alpha = 0.05) +
    facet_wrap(~Term)

 技术分享图片

        结论:一年期与五年期贷款是在2011年前后才上线的产品。三年期是整个平台最主要的贷款,

            2008年以前,贷款利率主要分布在0.08至0.2这个区间,随着美国次贷危机的持续发酵2010年利率逐渐分化,优质借款人依旧可以拿到0.1甚至更低的利率,而更多的借款人则需要以0.2以上甚至             0.35的利率方可筹到资金。为了救市美联储实行了量化宽松政策,持续向市场中注入大量流动性,利率承压下行。至2014年,可以看到各个利率层面均有大量的成交记录信贷市场逐渐恢复元气。

         4.2.2贷款利率与贷款状态

1 ggplot(aes(x = LoanStatus, y = BorrowerRate), data = loandata) +
2     geom_boxplot()

技术分享图片

        结论:违约贷款组的利率明显高于正常还款组。一方面,贷款定价高是由于借款人自身资质差;另一方面,高利率又使得借款人更加难以承受进而违约

        4.2.3贷款利率与过去7年违约次数

1 ggplot(aes(x = DelinquenciesLast7Years, y = BorrowerRate), 
2        data = subset(loandata, 
3                      loandata$DelinquenciesLast7Years <
4                          quantile(loandata$DelinquenciesLast7Years,
5                                   probs = 0.95, "na.rm" = TRUE))) +
6     geom_point(alpha = 0.05, position = "jitter") +
7     geom_smooth()

技术分享图片

        结论:95%的借款人过去7年违约次数低于23次,违约次数低于3次时,违约次数与贷款利率呈现出弱正相关性;而3次以后两者关系就趋于平稳。

        4.2.4贷款利率和借款人月收入的关系

1 ggplot(aes(x = StatedMonthlyIncome, y = BorrowerRate), 
2        data = subset(loandata, !is.na(loandata$StatedMonthlyIncome))) +
3     stat_density2d(aes(alpha = ..density..), geom = "tile", contour = FALSE) +
4     scale_x_continuous(limits = c(0, 30000))

技术分享图片

        结论:平台的借贷人月收入在10000美金以下,未发现贷款利率和月收入存在关系

        4.2.5贷款利率与借款人是否拥有房屋之间的关系

1 ggplot(aes(x = BorrowerRate), data = loandata) +
2     geom_histogram() +
3     geom_hline(yintercept = 3000, linetype = "dashed", color = "red") +
4     facet_wrap(~IsBorrowerHomeowner, ncol = 1)

技术分享图片

        结论:拥有房屋的人比没有房屋的人贷款的利息更低

        4.2.6贷款利率与过去6个月征信查询次数的关系

1 ggplot(aes(x = as.factor(InquiriesLast6Months), y = BorrowerRate), 
2        data = subset(loandata, loandata$InquiriesLast6Months <
3                          quantile(loandata$InquiriesLast6Months, 
4                                   probs = 0.95, "na.rm" = TRUE))) +
5     geom_boxplot() +
6     xlab("InquiriesLast6Months")

技术分享图片

        结论:征信查询的次数越多,贷款的利率越高

        4.2.7贷款利率和负债收益比的关系

1 ggplot(aes(x = DebtToIncomeRatio, y = BorrowerRate), 
2        data = subset(loandata, loandata$DebtToIncomeRatio <
3                          quantile(loandata$DebtToIncomeRatio, 
4                                   probs = 0.95, "na.rm" = TRUE))) +
5     geom_point(alpha = 0.05, position = "jitter") +
6     stat_smooth(color = "red")

技术分享图片

        结论:借款人的收入负债比越高,贷款利率也越高

        4.2.8贷款利率和信用评分的关系

1 ggplot(aes(x = CreditScore, y = BorrowerRate), data = loandata) +
2     geom_point(alpha = 0.05) +
3     facet_wrap(~Phase, ncol = 1) +
4     coord_cartesian(xlim = c(400, 900), ylim = c(0, 0.4)) +
5     geom_line(stat = "summary", fun.y = mean) +
6     geom_line(stat = "summary", fun.y = median, linetype = 2, color = "red") +
7     geom_vline(xintercept = 600, color = "red")

技术分享图片

        结论:在2009年之前,Prosper还会为消费信用评级低于600分的借款人提供服务,在2009年重新上线之后,不再为评分低于600分的客户服务

        4.2.9贷款利率和信用等级的关系

# 2009年7月1日以前
ggplot(aes(x = CreditGrade, y = BorrowerRate), 
       data = subset(loandata, LoanOriginationDate < "2009-07-01")) +
    scale_x_discrete(limits = c("HR", "E", "D", "C", "B", "A", "AA")) +
    geom_boxplot() +
    stat_summary(fun.y = mean, geom = "point", shape = 4) +
    stat_summary(fun.y = mean, geom = "smooth", aes(group = 1))


# 2009年7月1日以后
ggplot(aes(x = ProsperRating..Alpha., y = BorrowerRate),
       data = subset(loandata, LoanOriginationDate > "2009-07-01")) +
    geom_boxplot() +
    scale_x_discrete(limits = c("HR", "E", "D", "C", "B", "A", "AA")) +
    stat_summary(fun.y = mean, geom = "point", shape = 4) +
    stat_summary(fun.y = mean, geom = "smooth", aes(group = 1))

技术分享图片

技术分享图片

         结论:通过比较2009年7月1日前后贷款利率与借款人信用评级之间的关系发现,2009年7月1日后图形的均值连线明显斜率更大,说明Prosper在涉诉恢复运营后更为重视借款人的信用评级,评级对贷款            利率的影响权重更大了。

      总结论:

通过探索贷款利率与其他变量之间的关系,大致得出以下结论:

1. 贷款利率与过去7年的违约次数、过去6个月征信查询次数及负债收入比呈现出正相关关系。

2. 贷款利率似乎与借款人的月收入水平关系不明确。

3. 拥有房屋的借款人相比未拥有房屋的借款人更能够以较低利率筹得资金。

4. Prosper平台在2009年7月1日后似乎增加了信用评级对贷款利率的影响权重,并且不再对消费信用评分低于600分的借款人提供服务。

      4.3多变量分析

        4.3.1贷款日期和贷款利率和贷款状态之间的关系

1 ggplot(aes(x = ListingCreationDate, y = BorrowerRate, color = LoanStatus), data = loandata) +
2     geom_point(alpha = 0.05) +
3     guides(colour = guide_legend(override.aes = list(alpha = 1, size = 5)))

技术分享图片

        结论:2009年之前的违约数远大于2009年之后,且利息越高违约率就越大

        4.3.2贷款利率与消费信用评分及贷款状态的关系

1 ggplot(aes(x = CreditScore, y = BorrowerRate, color = LoanStatus),
2        data = loandata) +
3     geom_point(alpha = 0.05, position = "jitter") +
4     coord_cartesian(xlim = c(400, 900), ylim = c(0, 0.4)) +
5     facet_wrap(~Phase, ncol = 1) +
6     guides(color = guide_legend(override.aes = list(alpha = 1, size = 5)))

技术分享图片

        结论:在2009年之前的债务违约明显很多,并且是以信用评分较低的且贷款利率较高客户为主,2009年之后平台不再为信用评分低于600的客户提供贷款,贷款的质量有了明显提升

           也可以看出信用评分越高的客户,贷款的利率越低

        4.3.3贷款利率与贷款总额及信用评级的关系

 1 # 2009年7月1日之前
 2 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = CreditGrade),
 3        data = subset(loandata, LoanOriginationDate < "2009-07-01" & CreditGrade != "NC")) +
 4     geom_point(alpha = 0.5, position = "jitter") +
 5     scale_color_brewer(type = "seq", 
 6                        guide = guide_legend(title = "CreditGrade", reverse = F,
 7                                             override.aes = list(alpha = 1, size = 5))) +
 8     facet_wrap(~LoanStatus, ncol = 1)
 9 
10 # 2009年7月1日之后
11 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = ProsperRating..Alpha.), 
12        data = subset(loandata, LoanOriginationDate > "2009-07-01" &
13                          !is.na(ProsperRating..Alpha.))) +
14     geom_point(alpha = 0.5) +
15     scale_color_brewer(type = "seq", 
16                        guide = guide_legend(title = "ProsPerRating", reverse = F,
17                                             override.aes = list(alpha = 1, size = 5))) +
18     facet_wrap(~LoanStatus, ncol = 1)

技术分享图片

技术分享图片

        结论:在2009年7月1日之后,Prosper将最大的贷款金额有25000提升到了35000,并且只针对信用评级为B以上的客户,随着贷款的金额越高利率在逐渐降低,此外平台的违约贷款都是由HR和E等级的客户导           致的

        4.3.4贷款利率与贷款总额与信用卡使用频率的关系

 1 # 2009年7月1日之前
 2 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = BankCardUse),
 3        data = subset(loandata, LoanOriginationDate < "2009-07-01" & 
 4                          !is.na(BankCardUse))) +
 5     geom_point(alpha = 0.5) +
 6     scale_color_brewer(type = "qual",
 7                        guide = guide_legend(title = "BankCardUse", reverse = T,
 8                                             override.aes = list(alpha = 1, size = 5))) +
 9     facet_wrap(~LoanStatus, ncol = 1)
10 
11 # 2009年7月1日之后
12 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = BankCardUse),
13        data = subset(loandata, LoanOriginationDate > "2009-07-01" &
14                          !is.na(BankCardUse))) +
15     geom_point(alpha = 0.5) +
16     scale_color_brewer(type = "div",
17                        guide = guide_legend(title = "BankCardUse", reverse = T,
18                                             override.aes = list(alpha = 1, size = 5))) +
19     facet_wrap(~LoanStatus, ncol = 1)

技术分享图片

 

 技术分享图片

        结论:从信用卡的使用情况来看,时间节点前后并无明显变化。但是,违约贷款中,信用卡使用情况为Mild Use的借款人占比极低;相对的,信用卡使用情况为Super Use的客户占比却极高,这也印证了           前文的判断,信用卡的超额透支会对借款人的还款能力产生较大的负面影响。

      总结论:

本部分通过分时间节点、分贷款状态更为深入的探索了多重变量之间的关系,发现如下特点:

1. 2009年以前贷款违约数量明显高于2009年以后的数量,且利率越高,违约率越高!

2. 消费信用评分越高的借款人,其贷款利率也相对越低。

3. 2009年以前,Prosper限制了最大借款金额为25000美元,而在2009年以后放宽限制至35000美元,且似乎只针对信用评级B级以上的客户开放申请。并且随着贷款金额的增加,贷款利率在逐渐降低。

4. 信用评级为“HR”和“E”的借款人在违约组中的比例明显较高。

5. 信用卡使用情况为Super Use的借款人在违约组中的比例明显较高,使用情况为Mild Use的借款人在违约组中的占比极低。

5.拟合因子,验证相关性

# 2009年7月1日之前
m1 <- lm(I(BorrowerRate)~I(CreditScore),
         data=subset(loan_data,
                     loan_data$LoanOriginationDate <= 2009-07-01 
                      & !is.na(CreditScore) 
                      & !is.na(CreditGrade) 
                      & !is.na(LoanOriginalAmount) 
                      & !is.na(BankCardUse)))
m2 <- update(m1,~ . + CreditGrade)
m3 <- update(m2,~ . + LoanOriginalAmount)
m4 <- update(m3,~ . + BankCardUse)
mtable(m1,m2,m3,m4)
# 2009年7月1日之后
m5 <- lm(I(BorrowerRate)~I(CreditScore),
         data=subset(loan_data,
                     loan_data$LoanOriginationDate > 2009-07-01 
                      & !is.na(CreditScore) 
                      & !is.na(ProsperRating..Alpha.) 
                      & !is.na(LoanOriginalAmount) 
                      & !is.na(BankCardUse)))
m6 <- update(m5,~ . + ProsperRating..Alpha.)
m7 <- update(m6,~ . + LoanOriginalAmount)
m8 <- update(m7,~ . + BankCardUse)
mtable(m5,m6,m7,m8)

技术分享图片

技术分享图片

  结论:从表上看出2者的P值都是0说明拟合的较好,在2009年7月1日之前的R2是0.5左右,2009年7月1日之后的R2是0.9左右,说明平台降低了对信用评分的权重,加强信用等级的权重











以上是关于R语言-来自Prosper的贷款数据探索的主要内容,如果未能解决你的问题,请参考以下文章

基于python的prosper借贷平台之数据分析

R语言主成分分析(PCA)

R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风|附代码数据

python 用于数据探索的Python代码片段(例如,在数据科学项目中)

程序员不用的R语言,在这些行业却“香”到不行

拓端tecdat|R语言逻辑回归(Logistic Regression)回归决策树随机森林信用卡违约分析信贷数据集