机器学习 – 随机森林手动10 折交叉验证

机器学习 – 随机森林手动10 折交叉验证随机森林的 10 折交叉验证再回到之前的随机森林 希望还没忘记 机器学习算法 随机森林初探 1 library randomForest set

大家好,欢迎来到IT知识分享网。

随机森林的 10 折交叉验证

再回到之前的随机森林(希望还没忘记,机器学习算法-随机森林初探(1))

library(randomForest) set.seed(304) rf1000 <- randomForest(expr_mat, metadata[[group]], ntree=1000) rf1000 Call: randomForest(x = expr_mat, y = metadata[[group]], ntree = 1000) Type of random forest: classification Number of trees: 1000 No. of variables tried at each split: 84 OOB estimate of error rate: 11.69% Confusion matrix: DLBCL FL class.error DLBCL 57 1 0.0 FL 8 11 0.

除了 OOB,我们还可以怎么评估模型的准确性呢?这里没有测试集,那么就拿原始数据做个评估吧(注意:这样会低估预测错误率):

# 查看模型的类,为randomForest class(rf1000) [1] "randomForest" # 查看 predict 函数的帮助,默认帮助信息为通用函数 predict 的 # ?predict # 查看 randomForest 类的 predict 的帮助(predict+'.'+类名字) # 像 print 此类函数,也是如此查看帮助或源码 # type 参数: response 表示返回分类的值;prob 表示分类的概率;vote 表示 vote counts # ?predict.randomForest

开始预测

preds <- predict(rf1000, expr_mat, type="response")

查看下preds对象,显示的是每个样品被预测为属于什么类。

preds DLBCL_1 DLBCL_2 DLBCL_3 DLBCL_4 DLBCL_5 DLBCL_6 DLBCL_7 DLBCL_8 DLBCL_9 DLBCL_10 DLBCL_11 DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL_12 DLBCL_13 DLBCL_14 DLBCL_15 DLBCL_16 DLBCL_17 DLBCL_18 DLBCL_19 DLBCL_20 DLBCL_21 DLBCL_22 DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL_23 DLBCL_24 DLBCL_25 DLBCL_26 DLBCL_27 DLBCL_28 DLBCL_29 DLBCL_30 DLBCL_31 DLBCL_32 DLBCL_33 DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL_34 DLBCL_35 DLBCL_36 DLBCL_37 DLBCL_38 DLBCL_39 DLBCL_40 DLBCL_41 DLBCL_42 DLBCL_43 DLBCL_44 DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL_45 DLBCL_46 DLBCL_47 DLBCL_48 DLBCL_49 DLBCL_50 DLBCL_51 DLBCL_52 DLBCL_53 DLBCL_54 DLBCL_55 DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL DLBCL_56 DLBCL_57 DLBCL_58 FL_1 FL_2 FL_3 FL_4 FL_5 FL_6 FL_7 FL_8 DLBCL DLBCL DLBCL FL FL FL FL FL FL FL FL FL_9 FL_10 FL_11 FL_12 FL_13 FL_14 FL_15 FL_16 FL_17 FL_18 FL_19 FL FL FL FL FL FL FL FL FL FL FL Levels: DLBCL FL

计算模型效果评估矩阵(也称混淆矩阵),敏感性、特异性 100%。完美的模型!!!(这里主要是看下predict如何使用,完美的模型只是说构建的完美,不能表示预测性能的完美,因为没有用独立数据集进行评估。)

library(caret) Warning: package 'caret' was built under R version 4.0.3 Loading required package: lattice Loading required package: ggplot2 Attaching package: 'ggplot2' The following object is masked from 'package:randomForest': margin caret::confusionMatrix(preds, metadata[[group]]) Confusion Matrix and Statistics Reference Prediction DLBCL FL DLBCL 58 0 FL 0 19 Accuracy : 1 95% CI : (0.9532, 1) No Information Rate : 0.7532 P-Value [Acc > NIR] : 3.343e-10 Kappa : 1 Mcnemar's Test P-Value : NA Sensitivity : 1.0000 Specificity : 1.0000 Pos Pred Value : 1.0000 Neg Pred Value : 1.0000 Prevalence : 0.7532 Detection Rate : 0.7532 Detection Prevalence : 0.7532 Balanced Accuracy : 1.0000 'Positive' Class : DLBCL 

predict还可以返回分类的概率 (有了这个是不是就可以绘制 ROC 曲线和计算AUC 值了)。

preds_prob <- predict(rf1000, expr_mat, type="prob") head(preds_prob) DLBCL FL DLBCL_1 0.951 0.049 DLBCL_2 0.972 0.028 DLBCL_3 0.975 0.025 DLBCL_4 0.984 0.016 DLBCL_5 0.963 0.037 DLBCL_6 0.989 0.011

predict还可以返回分类的vote值。

preds_prob <- predict(rf1000, expr_mat, type="vote") head(preds_prob) DLBCL FL DLBCL_1 0.951 0.049 DLBCL_2 0.972 0.028 DLBCL_3 0.975 0.025 DLBCL_4 0.984 0.016 DLBCL_5 0.963 0.037 DLBCL_6 0.989 0.011

前面主要是学习下predictconfusionMatrix函数的使用。把前面的代码串起来,就构成了一个随机森林的 10 折交叉验证代码:

# https://stackoverflow.com/questions//how-to-calculate-the-oob-of-random-forest K = 10 m = nrow(expr_mat) set.seed(1) kfold <- sample(rep(1:K, length.out=m), size=m, replace=F) randomForestCV <- function(x, y, xtest, ytest, type="response", seed=1, ...){ set.seed(seed) model <- randomForest(x, y, ...) preds <- predict(model, xtest, type=type) return(data.frame(preds, real=ytest)) } CV_rf <- lapply(1:K, function(x, ...){ train_set = expr_mat[kfold != x,] train_label = metadata[[group]][kfold!=x] validate_set = expr_mat[kfold == x,] validate_label = metadata[[group]][kfold==x] randomForestCV(x=train_set, y=train_label, xtest=validate_set, ytest=validate_label, ...) }) kfold_estimate <- do.call(rbind, CV_rf)

查看下10 折交叉验证的预测结果

kfold_estimate preds real DLBCL_3 DLBCL DLBCL DLBCL_8 DLBCL DLBCL DLBCL_9 DLBCL DLBCL DLBCL_35 DLBCL DLBCL DLBCL_57 DLBCL DLBCL FL_9 DLBCL FL FL_10 DLBCL FL FL_18 FL FL DLBCL_15 DLBCL DLBCL DLBCL_16 DLBCL DLBCL DLBCL_40 DLBCL DLBCL DLBCL_41 DLBCL DLBCL DLBCL_42 DLBCL DLBCL DLBCL_44 DLBCL DLBCL DLBCL_51 DLBCL DLBCL DLBCL_53 DLBCL DLBCL DLBCL_5 DLBCL DLBCL DLBCL_20 DLBCL DLBCL DLBCL_25 DLBCL DLBCL DLBCL_32 DLBCL DLBCL DLBCL_38 DLBCL DLBCL FL_2 DLBCL FL FL_12 DLBCL FL FL_16 FL FL DLBCL_4 DLBCL DLBCL DLBCL_6 DLBCL DLBCL DLBCL_10 DLBCL DLBCL DLBCL_14 DLBCL DLBCL DLBCL_18 DLBCL DLBCL DLBCL_39 DLBCL DLBCL FL_1 DLBCL FL FL_6 FL FL DLBCL_17 DLBCL DLBCL DLBCL_19 DLBCL DLBCL DLBCL_22 DLBCL DLBCL DLBCL_33 DLBCL DLBCL DLBCL_36 DLBCL DLBCL DLBCL_45 DLBCL DLBCL DLBCL_47 DLBCL DLBCL FL_11 DLBCL FL DLBCL_13 DLBCL DLBCL DLBCL_23 DLBCL DLBCL DLBCL_37 DLBCL DLBCL DLBCL_52 DLBCL DLBCL FL_3 FL FL FL_5 FL FL FL_17 DLBCL FL FL_19 FL FL DLBCL_11 DLBCL DLBCL DLBCL_12 DLBCL DLBCL DLBCL_27 DLBCL DLBCL DLBCL_28 DLBCL DLBCL DLBCL_54 DLBCL DLBCL DLBCL_56 DLBCL DLBCL DLBCL_58 DLBCL DLBCL FL_14 DLBCL FL DLBCL_1 DLBCL DLBCL DLBCL_26 FL DLBCL DLBCL_29 FL DLBCL DLBCL_43 DLBCL DLBCL DLBCL_50 DLBCL DLBCL FL_8 DLBCL FL FL_15 FL FL DLBCL_2 DLBCL DLBCL DLBCL_7 DLBCL DLBCL DLBCL_48 DLBCL DLBCL DLBCL_55 DLBCL DLBCL FL_4 FL FL FL_7 FL FL FL_13 FL FL DLBCL_21 DLBCL DLBCL DLBCL_24 DLBCL DLBCL DLBCL_30 DLBCL DLBCL DLBCL_31 DLBCL DLBCL DLBCL_34 DLBCL DLBCL DLBCL_46 DLBCL DLBCL DLBCL_49 DLBCL DLBCL

计算模型效果评估矩阵(也称混淆矩阵)。准确性值为0.8581,OOB 的错误率是88.31%,相差不大。但Kappa值不算高0.5614,这也是数据集中两个分组的样本数目不均衡导致的。

library(caret) caret::confusionMatrix(kfold_estimate$preds, kfold_estimate$real) Confusion Matrix and Statistics Reference Prediction DLBCL FL DLBCL 56 9 FL 2 10 Accuracy : 0.8571 95% CI : (0.7587, 0.9265) No Information Rate : 0.7532 P-Value [Acc > NIR] : 0.01936 Kappa : 0.5614 Mcnemar's Test P-Value : 0.07044 Sensitivity : 0.9655 Specificity : 0.5263 Pos Pred Value : 0.8615 Neg Pred Value : 0.8333 Prevalence : 0.7532 Detection Rate : 0.7273 Detection Prevalence : 0.8442 Balanced Accuracy : 0.7459 'Positive' Class : DLBCL # 结果如下

其它指标前面大都有讲述或?confusionMatrix可看到对应的计算公式。

重点看下Kappa系数,其也是评估分类准确性的一个指标。在模型评估指标一文有提到,准确性值在各个分类样本不平衡时会更多偏向样品多的类。而Kappa系数则可以综合评估这种不平衡性。Kappa系数在-1和1之间,值越大表示模型性能越好。

  • Kappa=0说明模型和瞎猜差不多。
  • Kappa>0.4说明模型还行。
  • Kappa>0.4说明模型挺好的。
  • 这几个标准未找到确切文献,仅供参考来理解 Kappa 系数。

其计算公式如下:

机器学习 - 随机森林手动10 折交叉验证

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/165692.html

(0)
上一篇 2025-01-01 13:45
下一篇 2025-01-01 14:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信