【风控】非平衡样本问题的定义和解决办法

程序员文章站 2023-11-06 19:12:28

定义各类别的出现概率不均衡的情况如信用风险中正常用户远多于逾期、违约用户；流失风险中留存用户多于流失用户隐患降低对少类样本的灵敏性。但我们建模就是要找到这少类样本，所以必须对数据加以处理，来提高灵敏性。解决方案 1. 过采样对坏的人群提高权重，即复制坏样本，提高坏样本的占比。优点：简 ......

定义

各类别的出现概率不均衡的情况

如信用风险中正常用户远多于逾期、违约用户；流失风险中留存用户多于流失用户

降低对少类样本的灵敏性。但我们建模就是要找到这少类样本，所以必须对数据加以处理，来提高灵敏性。

对坏的人群提高权重，即复制坏样本，提高坏样本的占比。

简单，对数据质量要求不高

容易过拟合

对好的人群降低权重，通过抽样，降低好样本的占比

简单，对数据质量要求不高

丢失重要信息

不易过拟合，保留信息

不能对有缺失值和类别变量做处理（原始smote方法）

解决办法：可以将类别型进行编码或聚类，对缺失值进行处理后再使用

1. 最邻近算法，计算出每个少数类样本的k个近邻

对于每个违约样本，计算出其k个近邻违约样本

2. 从k个近邻中随机挑选n个样本进行随机线性插值 （n<=k）

3. 构造新的少数类样本

new = x_i + rand(0,1) * (y_j - x_i) , j = 1,2,...,n

其中x_i为少类中的一个观测点，y_j为k个邻近中随机抽取的样本

上万的样本，5%左右违约率可以了，不需做以上处理。

或者使用带权重的对于样本的考量，比如从业务的角度，出现一个坏的，会抵消20个号的影响，则可以认为好坏比为20比1

4. 将新样本与原数据合成，产生新的训练集

在冷启动时，没有好坏客户的数据，一般用通过率来验证模型的好坏。不能过高，也不能很低。