评分卡模型の特征工程中的BadRate单调与特征分箱之间的联系

转自

Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率

Bad Rate单调性与不同的特征场景:

在评分卡模型中,对于比较严格的评分模型,会要求连续型变量和有序型变量在经过分箱后需要保证Bad Rate的单调性

  1. 连续型变量

    在严格的评分卡模型中,对于连续型变量就要满足分箱后,所有bin的Bad Rate要满足单调性,只有满足单调性的情况下,才能进行后续的WOE编码

  2. 离散型变量

    离散化程度高,且无序的变量

    比如省份、职业等,会根据每个省份信息统计得到Bad Rate数值对原始省份信息进行编码,这样就转化为了连续型变量,进行后续的分箱操作,对于经过Bad Rate编码后的特征数据,天然单调。

    只有当分箱后的所有bin的Bad Rate呈现单调性,才可以进行下一步的WOE编码

    离散化程度低,且无序的变量

    比如婚姻状况,只有四五个状态值,因此就不需要专门进行Bad Rate数值编码,只要求出每个离散值对应的bin的Bad Rate比例是否出现0或者1的情况;

    若出现说明正负样本的分布存在极端情况,需要对该bin与其他bin进行合并,合并过程完了之后,就可以直接进行后续的WOE编码

    离散,且有序的变量

    对于学历这种情况,存在着小学、初中、高中、本科、硕士、博士等几种情况,而且从业务角度来说,这些离散值是有序的,因此在分箱的时候,必须保证bin之间的有序性,再根据Bad Rate是否为0或者1的情况决定是否进行合并,最终将合并的结果进行WOE编码

    因此Bad Rate单调性只在连续型数值变量和有序型离散变量分箱的过程中会考虑。

Bad Rate要求单调性的原因分析:

  1. 逻辑回归模型本身不要求特征对目标变量的单调性。之所以要求分箱后单调,主要是从业务角度考虑,解释、使用起来方便一点。如果有某个特征(分箱后)对目标变量不单调,会加剧模型解释的复杂化
  2. 对于像年龄这种特征,其对目标变量往往是一个U型或者倒U型的分布,有些公司是允许变量的Bad Rate呈(倒)U型的