分箱方法

分箱方法无监督分箱:等频、等距有监督分箱:BsetKS分箱、chi2分箱、决策树分箱一、chi2分箱关键词:卡方检验、卡方阈值、显著性水平、自由度什么是卡方检验?应用于哪些问题?(只应用与分类数据)应用方法?(拟合优度检验和独立性检验)什么是卡方分箱?(基于卡方检验的有监督的分箱方法)步骤(根

大家好,欢迎来到IT知识分享网。

无监督分箱:等频、等距

有监督分箱:Bset KS分箱、chi2分箱、决策树分箱

 

一、chi2分箱

关键词:卡方检验、卡方阈值、显著性水平、自由度

什么是卡方检验?应用于哪些问题?(只应用与分类数据)应用方法?(拟合优度检验和独立性检验)

什么是卡方分箱?(基于卡方检验的有监督的分箱方法)

步骤(根据一个chi2 python计算代码总结的):

(1)人为确定最大分箱数(一般为5)。对连续变量排序。

(2)若连续变量取值大于100,先将变量值等距分为100组。若小于100组,但大于设定分箱数,此步不操作。如果小于最大分箱数,跳过该变量。

(3)当总体箱数大于设定分箱数时,对于相邻区间计算卡方值,合并最小chi2值的两个区间。

(4)重复步骤3,直至分箱数不大于设定箱数。

(5)检查是否每一箱都有好坏样本。

(6)第一箱中只有好或者坏样本时,合并1/2箱。最后一箱只有好或者坏样本时,合并最后两箱。其它情况计算和前面箱以及和后面箱的chi2值,

比较chi2值,合并chi2值小的。

(7)重复5/6步骤。

注意:计算两个区间的chi2值时,用的y是区间的坏人率(badrate)。

分箱方法

 

 sklearn中集成的以卡方检验为准则选取重要性高的n个自变量:

http://lijiancheng0614.github.io/scikit-learn/modules/generated/sklearn.feature_selection.chi2.html

 

参考资料: https://blog.csdn.net/u013421629/article/details/78416748

                   https://cloud.tencent.com/developer/article/1418720

二、best_KS分箱

Best-KS分箱的算法执行过程是一个逐步拆分的过程:

1.将特征值值进行从小到大的排序。

2.计算出KS最大的那个值,即为切点,记为D。然后把数据切分成两部分。

3.重复步骤2,进行递归,D左右的数据进一步切割。直到KS的箱体数达到我们的预设阈值即可。

分箱方法

 

 参考文档: 分箱方法

三、决策树分箱

实际效果就是用想要离散化的那个连续变量单变量用树模型(可以用sklearn中的cart树)拟合y。

具体操作方法如下:https://www.2cto.com/net/201805/742502.html

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/32016.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信