论文复现和点评《基于随机森林模型的个人信用风险评估研究》

作者Toby,来源公众号:Python风控模型,论文复现和点评《基于随机森林模型的个人信用风险评估研究》

最近Toby老师看到一篇论文热度比较高,下载量有665次,论文标题是《基于随机森林模型的 个人信用风险评估研究》

图片

图片

图片

图片

图片

图片

图片

图片

论文篇幅较长,Toby老师概述一下作者的摘要,并通过自己语音简单复述了这个项目。

摘要:

LendingClub作为美国最大的P2P借贷平台之一(目前lendingclub已转型互联网银行),其风控模型的建立对于平台的稳健运营至关重要。本文基于随机森林算法,结合LendingClub平台的实际数据,建立了一种风控模型,并对其性能进行了评估。实证结果表明,基于随机森林的风控模型比逻辑回归具有较高的预测准确性和稳健性,能够有效降低平台的信用风险,为投资人和借款人提供更加安全可靠的借贷环境。

  1. 引言 互联网借贷平台的风险管理是保障平台稳健运营的关键环节。LendingClub作为典型的P2P借贷平台,其风险管理模型的构建对于降低信用风险、提高投资人和借款人的信任度至关重要。随机森林作为一种强大的机器学习算法,在金融风控领域得到了广泛应用。本文旨在利用随机森林算法构建LendingClub的风控模型,并评估其性能表现。

  2. 相关研究 在互联网借贷领域,许多研究已经探讨了不同的风险管理模型和算法。其中,基于机器学习的方法在近年来备受关注。例如,支持向量机、逻辑回归、随机森林等算法被广泛用于信用评分和违约预测。

  3. 数据和方法 本文采用LendingClub平台的历史借贷数据作为样本,包括借款人的个人信息、信用评分、收入情况等。首先,对数据进行预处理,包括缺失值处理、特征工程等。然后,利用随机森林算法构建风控模型,并采用交叉验证等方法对模型进行优化和评估。

  4. 结果与分析 实证结果显示,基于随机森林的风控模型在LendingClub平台的信用评分和违约预测方面表现良好。与传统的线性模型相比,随机森林模型具有更高的预测准确性和鲁棒性,能够更好地捕捉数据中的非线性关系和复杂模式。

  5. 结论与展望 本文基于随机森林算法构建了LendingClub的风控模型,并证明了其在信用风险管理方面的有效性和可行性。未来的研究可以进一步探讨其他机器学习算法在互联网借贷平台风险管理中的应用,并结合大数据和人工智能等技术,进一步提升模型的预测能力和实时监控能力,为平台的健康发展提供更加可靠的保障。


Toby老师对论文点评

这篇论文本身质量比较高,Toby老师认为研究生能写出这样论文也是花了不少时间做研究,值得鼓励和肯定。

《基于随机森林模型的人信用风险评估研究》论文采用的是lendingclub数据集,该数据集最明显特征是数据非平衡。故作者花了很多时间在SMOTE过采样技术上,提升模型性能。

图片

接下来我谈谈论文可以优化内容。

1.非平衡数据集中准确率的误导性

论文对模型验证只用了准确率,过于单一。模型验证指标很多,不同指标反应模型不同方面。

图片

如果数据集是非平衡的,准确率accuracy指标意义不大,且容易误导决策者。大家不要太信任模型,模型也是会玩小聪明的。如果数据集里999个样本都是好客户,1个样本是坏客户。模型偷偷懒,自动判断所有预测结果为好客户,准确率也可以达到999/1000,即0.999。决策者一看模型准确率0.999这么高,兴高采烈,实际上模型什么都没干,就是把所有预测对象统一判断为好客户而已。

2.模型验证指标多样化

模型验证指标很多,不同指标反应模型不同方面。论文如果加上AUC,KS,Gini系数,混淆矩阵指标,模型验证结果会更好。

3.多算法比较不足

该论文只比较了逻辑回归和随机森林两种算法,得到了随机森林性能较好结论。我们可以对比更多算法。


Toby老师通过其它集成树算法得到模型测试集结果如下,性能高于论文中随机森林性能。

'''
python金融风控评分卡模型和数据分析(加强版),商务咨询QQ:231469242
https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149
'''
accuracy on the training subset:0.992
accuracy on the test subset:0.990
test data:
model accuracy is: 0.9899023985048282
model precision is: 0.9325153374233128
model sensitivity is: 0.28679245283018867
f1_score: 0.4386724386724387
AUC: 0.8726141962832263
good classifier
gini 0.7452283925664527
ks value:0.5835

4.可视化内容不足


论文中有变量统计和模型可视化图片,如下图。

图片

但作为研究生论文,描述性统计可视化较少,且模型可视化内容还可以强化。大家不要小看描述性统计,古人云知己知彼百战百胜。描述性统计类似情报收集环节。描述性统计做得越好,对模型理解越透彻。

Toby老师分享部分lendingclub数据集的描述性统计图片。

贷款额度的描述性统计和可视化

图片

部分变量直方图

图片

贷款金额

lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。

图片

贷款人收入水平

图片

贷款人年收入,贷款等级,收入验证多因子分析

图片

Toby老师模型的AUC动态可视化。

图片

Toby老师模型的logloss动态可视化。

图片

总结

《基于随机森林模型的个人信用风险评估研究》研究生论文写的非常不错,值得大家去学习。如果在模型验证加入更多指标,添加更多描述性统计内容,增加数据可视化,论文整体效果会更好。

相关课程

《基于随机森林模型的个人信用风险评估研究》论文复现和点评就为大家介绍到这里。我们公司自研课程《Python风控建模实战lendingclub》可以复现大部分上述论文内容,且有更加丰富内容讲解。

如果您们对人工智能预测模型项目感兴趣,欢迎各大科研机构,研究生博士生论文定制服务联系。

项目联系人:重庆未来之智信息技术咨询服务有限公司,Toby老师,文章末尾有联系方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015337.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

陪诊系统|陪诊小程序成品|陪诊系统功能

随着人们对健康的日益关注以及医疗技术的不断进步,陪诊小程序应运而生,通过提供陪同就医、医疗服务和健康管理等功能为患者和家庭成员提供了更多的便利和选择。本文将分析陪诊小程序的关键功能,以便更好地理解其在医疗领域的作用。 在陪诊小程…

练习项目后端代码解析注解篇(annotation)

前言 本来想从接口处入手的,但是一下看到接口里几十个方法,眼睛有点抗拒,想想还是先看作者写的自定义注解吧。 项目里有三个自定义注解: 分别是AccessLimit注解、OperationLogger注解、VisitLogger注解 AccessLimit注解 这是一…

Summer ‘24来啦!15个最热门的功能抢先看!

Salesforce Summer 24即将发布!本篇文章我们将深入了解Summer 24最热门的声明性功能。 01 自动化Lightning应用程序 新的自动化Lightning应用程序中包含所有与自动化相关的内容。访问该应用程序的用户可以在主应用程序中看到Flow、错误信息和其他基于社区的链接。…

自动驾驶主流芯片及平台架构(一)

零部件成本下降、中低端车竞争加剧,推动ADAS渗透率在中国市场快速提升,自主品牌ADAS装配量大幅提升 零部件成本下降、中低端车竞争加剧,推动ADAS渗透率在中国市场快速提升,自主品牌ADAS装配量大幅提升。5年前在一些高端车型上才有…

【JVM】类加载机制及双亲委派模型

目录 一、类加载过程 1. 加载 2. 连接 a. 验证 b. 准备 c. 解析 3. 初始化 二、双亲委派模型 类加载器 双亲委派模型的工作过程 双亲委派模型的优点 一、类加载过程 JVM的类加载机制是JVM在运行时,将 .class 文件加载到内存中并转换为Java类的过程。它…

【硬核科普】一文读懂生成对抗网络GAN

0. 前言 按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解及成果,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。 本文基于Ian在2014年发表在NIPS的论…

GDPU 天码行空11

(一)实验目的 1、掌握JAVA中IO中各种类及其构造方法; 2、重点掌握IO中类所具有的IO操作方法; 3、熟悉软件中登录模块的开发方法; 4、掌握IO中读写常用方法。 5、进一步熟悉正则规则的使用方法。 (二&…

GT资源-Clock资源

一、Transmitter 时钟分布 XCLK:在使用TX buffer的模式下,XCLK来源于TXOUTCLK。在使用TX bypassing的模式下XCLK来源于TXUSERCLK。TXUSRCLK是GTX/GTH中PCS的内部逻辑时钟。TXUSRCLK2是GT Transceiver 用户侧逻辑时钟。 TXUSRCLK与TXUSRCLK2的关系 FPGA …

聚类分析:使用R语言对Iris数据集进行K均值聚类

引言 聚类分析是一种常用的无监督学习技术,旨在将数据集中的样本分成具有相似特征的组。K均值聚类是其中一种常见的方法,它通过将数据点划分为K个簇,并使每个数据点与其所属簇的中心点距离最小化来实现聚类。本文将介绍如何使用R语言执行K均…

奥威-金蝶BI现金流量表模板,可借鉴、可套用

企业现金流一旦出了问题都是大问题,会直接影响到企业的日常运作,甚至直接关系到企业能不能继续存活,因此现金流量表是企业财务分析中重要报表之一,也是企业监控财务监控情况的重要手段之一。那么这么重要的一份现金流量表该怎么做…

羊大师解读,当代年轻人焦虑应对指南

羊大师解读,当代年轻人焦虑应对指南 当代年轻人面临焦虑问题时,羊大师提出以下综合建议,要增强自我认知了解自身的需求和期望,明确自己的价值观和目标。这有助于避免盲目跟风和过度比较,从而减轻不必要的焦虑。 合理规…

Mybatis-Plus大批量插入数据到MySQL

MyBatis-Plus的saveBatch方法 GetMapping("/save1") public void save1() {// 数据准备List<MallOrder> orderList getMallOrderList();// mybatis-pluslong start System.currentTimeMillis();mallOrderService.saveBatch(orderList);System.out.println(&…

做私域,朋友圈到底该怎么发?

说到做私域&#xff0c;很多人都会问&#xff1a;朋友圈该怎么发&#xff1f;相信大家的朋友圈早已经被各种广告攻占了&#xff0c;很多也都被大家屏蔽了。但如果要做私域&#xff0c;单纯发广告是行不通的&#xff0c;可是现在依然有很多人&#xff0c;认为做私域就是狂发朋友…

RabbitMQ的介绍和使用

1.同步通讯和异步通讯 举个例子&#xff0c;同步通讯就像是在打电话&#xff0c;因此它时效性较强&#xff0c;可以立即得到结果&#xff0c;但如果你正在和一个MM打电话&#xff0c;其他MM找你的话&#xff0c;你们之间是不能进行消息的传递和响应的 异步通讯就像是微信&#…

美国纽扣电池UL4200A及16CFR1262标准亚马逊要求

2023年9月21日&#xff0c;美国消费品安全委员会CPSC(Consumer Product Safety Commission) 决定采用UL 4200A-2023&#xff08;包含纽扣电池或硬币电池的产品安全标准&#xff09;作为包含纽扣电池或硬币电池的消费品的强制性消费品安全规则&#xff0c;相关要求同时被编入到1…

前端数据可视化基础(折线图)

目录 前言&#xff1a; 画布&#xff1a; 折线图 (Line Chart): 前言&#xff1a; 前端中的数据可视化是指将大量数据以图形或图像的形式在前端页面上展示出来&#xff0c;以便用户能够更直观地理解和分析这些数据。数据可视化是一种强大的工具&#xff0c;它利用了人类视觉…

《架构思维:从程序员到CTO》:通往顶级架构师之路

&#x1f482; 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】&#x1f91f; 一站式轻松构建小程序、Web网站、移动应用&#xff1a;&#x1f449;注册地址&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交…

使用excel合理整理数据

使用excel合理整理数据 Excel函数LOOKUP把两个sheet数据关联起来LOOKUP函数 Excel函数LOOKUP把两个sheet数据关联起来 LOOKUP函数 需求场景 1、sheet1是视频的数据比如 aid、作者、视频信息 2、sheet2是视频的播放数据比如 aid vv uv等 做的就是根据1、2 的aid 将 sheet2中的所…

多目标灰狼算法(MOGWO):原理讲解与代码实现 Matlab代码免费获取

声明&#xff1a;文章是从本人公众号中复制而来&#xff0c;因此&#xff0c;想最新最快了解各类智能优化算法及其改进的朋友&#xff0c;可关注我的公众号&#xff1a;强盛机器学习&#xff0c;不定期会有很多免费代码分享~ 目录 原理简介 一、Pareto最优概念 二、单目标G…

高实时、高可靠的微内核操作系统——鸿道Intewell

近年来&#xff0c;我国不断推进工业转型升级&#xff0c;力求实现从传统工业大国向现代工业强国的跨越。想要在新一轮科技革命中“超车”&#xff0c;需要从多个维度进行深度布局和全面发力。 ——科技创新是核心驱动力 积极推动工业结构的优化和升级&#xff0c;通过发展新…