汇总收集网上相关数据风控应用,多多交流。
在信贷风控的建模场景中,围绕样本数据的目标变量Y定义,是非常重要且特别有意思的处理过程,原因是根据差异化的业务场景与数据形态,标签Y的定义逻辑没有固定方法,只要能够满足实际场景需求即可。常见的方法论就是根据熟悉的滚动率分析与账龄分析,同时结合业务经验进行自行定义,赋予每个样本用户较合理的标签值,也是实际业务的准确度目标。
在日常风控场景中,特别是银行信用卡业务,围绕建模样本的目标变量Y定义,除了好客户与坏客户,还有一种灰客群的存在,这类客户是介于好坏客户之间的群体对象,就是好或坏的属性不够明显,直接定义为好或坏都不够客观,因此将其定义为一类特殊群体来区别对待更为合适。
▍滚动率矩阵定义
滚动率矩阵就是从某个观察点之前的一段时间(观察期)的最坏的逾期状态,向观察点之后的一段时间(表现期)的最坏的逾期状态的发展变化趋势。“转移”就是看客户从当前状态向下一个状态变化的可能性。滚动率矩阵分析:用以定义账户好坏程度。逾期超过多少天定义为“坏用户”是合理的呢?对业务而言适当的逾期有助于提高收入的增长,一般是通过“滚动率”来分析定义坏用户。例如逾期30天后趋向稳定状态,有95%以上的用户不会偿还债务,则可以定义逾期30+为坏用户。
▍滚动率矩阵计算与分析
一、当样本量较大的情况
滚动率矩阵分析的具体步骤如下:
step 1. 确定数据源,基于客户还款计划表数据。
step 2. 选择其中一个观察点,以观察点为截止时间,统计所有客群在观察期(例如过去6个月)的最长逾期期数,按最坏逾期状态可以将客户分为几个层次,如C、M1、M2、M3、M4、M5、M6+。
step 3. 以观察点为起始时间,统计客户在表现期(例如未来6个月)的最长逾期期数,按最坏逾期状态将用户分为几个层次,如C、M1、M2、M3、M4 、M5、M6+。
step 4. 交叉统计每个格子里的客户数。
step 5. 统计每个格子里的客户占比。
step 6. 为了排除观察点选择时的随机性影响,一般会选择多个观察点。重复step1 ~5。
图1 转移矩阵
图2 滚动率矩阵
由上图2可知分析结果:
1.逾期状态为M0的客户,在未来6个月里,有95.6%会继续保持正常状态,4.4%会恶化为M1和M2;
2.逾期状态为M1的客户,未来有82.6%会回到正常状态,即从良率为82%,有7%会恶化,11.6%会保持M1状态;
3.逾期状态为M2的客户,从良率为43%,有11%会恶化为M3和M4+;
4.逾期状态为M3的客户,从良率为13.4%,有80%会恶化为M4+;
结论:认为历史逾期状态为M3+的客户已经坏透。为了让风控模型有更好的区分能力,需要将客户好坏界限清晰。坏用户(bad)= 逾期状态为M3+。
二、当样本量较少的情况
转移矩阵,观察客户行为变化的情况。以下表为例,横坐标代表了每个客户的逾期行为(还款计划表的每一期的逾期状态),id列是每个客户的客户编号,后面从1月到9月分别代表了客户在各个月份里发生违约的行为。那么表中1,2,3分别代表客户逾期的严重程度,分别是逾0期,逾1期,逾2期,逾3期等等。
可以把该客户的逾期状态两两取出,存储为数据表中的一行,可以得到以下图例。以1000001为例,其风险转移状态就是0-0,0-1,1-2,其中红色的线代表与当前期相比客户下一期的行为变差了;而绿色就代表与当前期相比客户下一期的行为变好了;而黄色代表不变。
把所有客户的当前逾期状态向下一个逾期状态转移情况都提取出来并进行汇总分析,可以得到下面这张转移矩阵表。其中,纵轴代表客户的当前违约状态,横轴代表下一期违约状态,数据项分别代表客户由当前状态向下一状态转移的可能性。使用不同的颜色对客户行为的好坏进行区分,黄色代表转移状态不变的概率,红色代表客户向更坏的状态转移的概率,绿色代表客户向更好的状态转移的概率。
将上述转移矩阵表按照不同的行为程度(颜色)进行横向汇总,可以得到如下统计结果表(左);以逾期状态为横轴,向更坏状态转移的概率为纵轴,可以得到如下图(右)。
参考公众号文章:https://mp.weixin.qq.com/s/Xrdc0h23BvPEhuwTc7CmWA