本文是处理不平衡数据系列之二,在上一篇文章中,我们完成了对数据的预处理、可视化以及模型训练与预测等等工作,对数据有了整体的认识。在对实验数据进行预处理的时候,缺失值(missing values)和高相关性变量(variables with high correlation)是重点关注的对象。解决了这两个问题后,数据集样本不平衡的缺陷仍旧没有根除,所以针对数据分别进行了上采样、下采样以及SMOTE三种采样方法。显然,采样花费时间最久的SMOTE在模型中表现最佳,拿到了最高的准确率0.896,可是正当准备庆祝的时候,一个不幸的“消息”告诉我们:特异度(Specificity)只有0.254。也就是说,模型对预测收入高于5w的少数人群(minority class)表现不太好,这样的模型结果是不太令人满意的,能够拿到0.896的准确率自然也是在情理之中,毕竟正反样本的比例(96:4)摆在那里。为了克服这个缺陷,我们在R语言中采用了高效、性能强大的xgboost处理框架,最终得到理想的数据。
说句题外话,原本计划完成任务需花费10个番茄,实际耗时远远多出了预期的1倍多,整个五一就窝在实验室了。经过这个小小的项目后,深感“单兵作战”孤立无援的苦楚,唯有不断google,不断将写好的代码推倒重来,不断input、output······
本项目github地址:https://github.com/swordspoet/UCI_imbalanced_data
- 一、初次尝试xgboost
- xgboost模型参数解释与设定
- 二、xgboost in mlr
- 数据预处理
- 调参与模型训练
- 参考链接
一、初次尝试xgboost
为了训练出一个能够在预测正负样本表现均良好的模型,在这篇文章中我们会用到xgboost算法,xgboost(eXtreme Gradient Boosting)的作者是华盛顿大学的陈天奇,xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行计算,同时在算法上加以改进提高了精度。随着越来越多的队伍借助xgboost取得了kaggle比赛中的胜利,xgboost在近年来变得十分流行。
xgboost不仅被封装成了Python库,何通制作了xgboost工具的R语言接口,所以R中安装后便可以直接使用。
照例,我们先对数据进行预处理,预处理的思路是:分别考虑训练集、测试集中的数值型变量和类别型变量,对数值型,剔除高度相关的变量,对类别型,剔除数据遗漏严重的变量。经过上述两个步骤后,再将
数值型和类别型变量重新组合。因为R对内存的要求太苛刻了,完成数据预处理后,还需要将train,test,num_train,num_test,cat_train,cat_test
从RStudio中移除以减少内存占用,不然会出现内存不够的情况。以笔者8G内存的台式机器为例,本次实验中CPU与内存满负荷运算是常事,还出现几次假死、崩溃的情况,所以在R中进行数据处理的时候一定要注意内存的管理。
1 | # 加载包 |
xgboost模型参数解释与设定
完成了数据预处理,接着便是分类模型的构建。在运行xgboost前,有三类参数需要人工设定: general parameters, booster parameters and task parameters,xgboost的官方文档有关于这些参数的详细解释:
- General parameters relates to which booster we are using to do boosting, commonly tree or linear model
- Booster parameters depends on which booster you have chosen
- Learning Task parameters that decides on the learning scenario, for example, regression tasks may use different parameters with ranking tasks
- Tree Booster参数解释:
- eta [default=0.3, alias: learning_rate]
- 学习率,防止模型出现过拟合,默认取0.3,通常取值范围[0.01,3]
- 在每次迭代后,变量的权重会随之衰减
- gamma [default=0, alias: min_split_loss]
- 模型正则化系数,gamma越大,意味着模型越不容易出现过拟合
- max_depth [default=6]
- max_depth值越大,意味着模型越复杂,也越容易出现过拟合
- max_depth的取值没有规定
- min_child_weight [default=1]
- In classification, if the leaf node has a minimum sum of instance weight (calculated by second order partial derivative) lower than min_child_weight, the tree splitting stops.
- subsample[default=1][range: (0,1)]
- It controls the number of samples (observations) supplied to a tree.
- 通常取值范围为 (0.5,0.8)
- colsample_bytree[default=1][range: (0,1)]
- It control the number of features (variables) supplied to a tree
- 通常取值范围为 (0.5,0.9)
- Learning Task参数解释:
- Objective[default=reg:linear]
- Objective规定模型需要处理的任务
reg:linear
- 线性回归binary:logistic
- 二分类LR回归multi:softmax
- 多分类softmax回归
1 | > tr_labels <- d_train$income_level |
其实,即使是给模型设定默认的参数也能得到意想不到的准确率,xgboost在kaggle社区中如此受欢迎也是有理由的。运行,训练模型(耗时约4分钟)并预测,模糊矩阵confusionMatrix(xgbpred, ts_labels)
结果显示模型准确率达到了95.51%,然而这并不是重点。提升模型对预测收入高于5w的少数人群(minority class)的预测能力才是我们的目标,结果显示特异度(Specificity)达到47.12%,比上一个朴素贝叶斯提升了11.7%,效果仍然不是特别完美,不过也还可以了!无论是准确率还是其他衡量指标,xgboost得出的结果是全面优于之前的朴素贝叶斯模型的,那么还有没有提升的空间呢?
二、xgboost in mlr
2016年,R语言的用户迎来了mlr
包的诞生,mlr,即machine learning in R。mlr是R语言中为专门应对机器学习问题而开发的包,在mlr出现之前,R语言中是不存在像Scikit-Learn这样的科学计算工具的。mlr包为在R中用机器学习方法解决问题提供了一套自有的框架,涵盖了分类、聚类、回归、生存分析等问题,另外mlr还为参数调优、预测结果分析、数据预处理等与机器学习相关的话题贡献了较为完整的方案。如果说,Scikit-Learn在Python的各个库之间不分伯仲,那么R语言的mlr就可谓一枝独秀。
说了这么多,如果对mlr感兴趣的同学可以去RStudio里一睹“真容”;mlr也专门为用户建立了一个教程网站:Machine Learning in R: mlr Tutorial,可以去官网找一个例子来跑一跑;这是mlr的github项目,由于mlr的普及率还不算太高,官方文档也还在优化中,所以在google上找到关于mlr的资源还不是特别多,所以建议大家在使用过程中出现问题的话去项目中提issue或者在issue中找答案,这是最有效的办法!
在R语言中使用mlr包解决机器学习问题只需要牢记三个步骤即可:
- Create a Task:导入数据集,创建任务,可以是分类、回归、聚类等等
- Make a Learner:构建模型,模型构建过程中涉及到参数设定、参数调节诸多技巧
- Fit the model:拟合模型
- Make predictions:预测
在R中,变量可以归结为名义型、有序型、或连续型变量,类别(名义型)变量和有序类别(有序型)在R中称为因子(factor)。
更多关于R语言数据结构的内容参见这篇文章。
值得注意的是mlr包对数据的格式是有要求的,mlr任务函数不接受字符型(char)变量,所以在构建任务函数前,必须确保将所有的变量转换为因子型(factor),作者的解释是
All these things are possible pre-processors, which can be a model that wraps xgboost, when before doing train/predict, run the pre-processing and feed processed data to xgboost. So it is not hard.This is also reason why I do not explicit support factor in the tree construction algorithm. There could be many ways doing so, and in all the ways, having an algorithm optimized for sparse matrices is efficient for taking the processed data.
Normal tree growing algorithm only support dense numerical features, and have to support one-hot encoding factor explicitly for computation efficiency reason.
在mlr中的xgboost,似乎并不需要进行太多的数据预处理,xgboost的作者回复issue时是这样说的
“….. xgboost treat every input feature as numerical, with support for missing values and sparsity. The decision is at the user
So if you want ordered variables, you can transform the variables into numerical levels(say age). Or if you prefer treat it as categorical variable, do one hot encoding.”
也就是说xgboost视每个特征均为数值型,同时还支持遗漏变量和稀疏性数据,至于对数据进行何种预处理,决定权在用户手上。不同于之前,本次数据预处理仅仅是将字符型变量转换成因子,然后feed给mlr,mlr就直接开始创建任务(Create task)、构建模型(Make a learner)了,简单而且粗暴。
数据预处理
下面,我们将使用mlr包继续提升模型的预测效果,照例首先加载数据和包。
1 | # 载入数据和包 |
在加载包的时候需要注意mlr和caret的加载顺序,caret应该在mlr之前载入,否则训练模型的时候R不清楚到底是加载caret的train还是mlr的train,从而导致如下错误
1 | Error in unique.default(x, nmax = nmax) : |
一定要确保
1 | The following object is masked from ‘package:caret’: |
调参与模型训练
在对模型进行训练时,R的运算速度一直是一个问题,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。parallel包可以很容易的在计算集群上实施并行计算,在多个CPU核心的单机上,也能发挥并行计算的功能。笔者用的计算机是4核i5-6600K的CPU与8G内存,即使是中端配置的机器也需要满负荷计算约一小时才能得到最优参数。
1 | > char_cols <- colnames(train)[sapply(train,is.character)] |
xgb_tune$x
查看参数调节得出的最优结果,将最优参数设定在模型xgb_new
中,然后进行训练,这时便出现了我们前面提到的错误unique() applies only to vectors
(当然github项目上给出的代码已经修正了)。出现这个错误之后,刚开始并不清楚原因在哪个地方,在下面的代码执行日志中可以发现我在不停地重新赋值再训练还有重新创建任务(因为我之前在R中遇到过将同一段代码先后两次执行,第一次错误,第二次却成功的情况),来来回回尝试了十几次,直到后来在github找到关于这条错误信息的issue,原来是caret和mlr的加载顺序弄错了。然后,用detach("package:caret")
和detach("package:mlr")
命令先将两个包移除,再按照先加载caret后加载mlr的顺序,最后再重新赋值训练,成功。
1 | > xgb_new <- setHyperPars(learner = xgb_learner, par.vals = xgb_tune$x) |
经历了千辛万苦,模型终于训练好了,胜利的曙光似乎就在前方,终于可以进行预测了!然而,猝不及防,正当我们将测试集的income_level
与xgb_prediction
进行对比时,an error thrown again,这次是The data contain levels not found in the data.
。错误信息直接翻译过来的意思是数据中包含levels not found,分别查看预测结果xgb_prediction
与test$income_level
,发现原来是两者的标签设置不一样,xgb_prediction
预测的结果是-50000
和+50000
两种,而原测试集目标变量test$income_level
的标签是-50000
和50000+.
两个level,标签不同自然无法比较。
解决办法也挺简单,执行test[,income_level:= ifelse(income_level == "-50000","-50000","+50000")]
将50000+.
替换为+50000
即可。
1 | > predict_xgb <- predict(xgmodel, test_task) |
查看模糊矩阵得到的结果,模型准确率达到95.68%,并且特异度(Specificity),也就是对负样本的预测准确率达到75.84%,可以说,已经非常不错了!至此,UCI人口调查数据的折腾就暂时告一段落了,如果有时间我还会继续发表研究这个数据以及学习xgboost的心得!
(完)
参考链接
- 关于xgboost不接受字符型变量的讨论:Factors #95
- 关于出现
unique() applies only to vectors
错误的讨论:Error in unique.default(x, nmax = nmax) : unique() applies only to vectors #1407;Error in makeParamSet when tuning hyperparameters of nnet #1418 - mlr入门教程:Machine Learning in R: mlr Tutorial
- Get Started with XGBoost in R
- 在R语言中针对初学者的xgboost和调参教程:Beginners Tutorial on XGBoost and Parameter Tuning in R
- 知乎专栏:强大的机器学习专属R包——mlr包
- mlr-tutorial:Imbalanced Classification Problems