R语言计算IV值及使用

发布时间:2020-07-17 22:12:17 作者:佛曰可说
来源:网络 阅读:1616

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:

CalcIV <- function(df_bin, key_var, y_var){
 N_0<-table(df_bin[, y_var])[1]
 N_1<-table(df_bin[, y_var])[2]
 iv_c<-NULL
 var_c<-NULL
 for (col in colnames(df_bin)){
   if (col != key_var && col != y_var) {
     frq<-as.data.frame(table(df_bin[, col], df_bin[, y_var]))
     len<-length(unique(frq$Var1))
     iv<-0
     for (i in 1:len){
       N_i_0<-frq$Freq[frq$Var1==i & frq$Var2==0]
       N_i_1<-frq$Freq[frq$Var1==i & frq$Var2==1]
       iv<-iv+(N_i_0/N_0- N_i_1/N_1)*log((N_i_0/N_0)/(N_i_1/N_1))
     }
     iv_c<-c(iv_c, iv)
     var_c<-c(var_c, col)
   }
 }
 iv_df<-data.frame(var=var_c, iv=iv_c, stringsAsFactors = FALSE)
 return(iv_df)

}

其中,df_bin是分箱后的数据集,key_var是主键,y_var是y变量(0是好,1是坏)。代码运行结果如下:
R语言计算IV值及使用

推荐阅读:
  1. R语言移除缺失值 NA
  2. R语言笔记 日期值

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

r语言 iv

上一篇:Real-Rime Rendering (7) -加速算法(Acceleration Algorithm)

下一篇:工作中程序开发需要注意问题集结(PHP之web开发)

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》