模型的评价指标
分类任务
- 查准率
- 查全率
- ROC 曲线:比较 AUC 的大小,AUC 是研究机器学习模型泛化性能的工具,横轴{假正例率,FP/(FP+TN)},纵轴{真正例率,TP/(TP+FN)}
- 混淆矩阵
回归任务
- 均方差
- 灵敏度和特异度
- R 方:评估模型拟合度的好坏
推荐算法
- 基于内容
- 协同过滤:基于用户和物品
- 基于知识
Bagging 和 Boosting 的区别
- Bagging:处理过拟合(方差);分类器之间相互独立;关注方差(注意数据扰动带来的影响)
- Boosting:分类器序列相关;降低方差和偏差,关注降低偏差
比较 LR 与 SVM 的区别
- LR 是一种概率模型的手段,SVM 试图找到一个超平面
- 参数估计的方法:LR(最大似然估计法);SVM(拉格朗日乘子法)
- SVM 的泛化性能更好,受异常点的影响比较小
- LR 在不平衡数据集上的表现优于 SVM
统计学习方法的三要素
模型、策略和算法
统计学习方法的步骤
数据→模型集合→选择模型→实现算法→选择最优→预测/分析
决策树生成计算方法
- ID3:信息增益算法
- C4.5:信息增益比
- CART:基尼指数
防止过拟合的手段
- 早停止,如果模型的性能没有提高则停止训练
- 增大数据量
- 正则化
- 交叉验证:留一、K 折
- 特征选择、降维
- dropout
比较 L1 和 L2 正则化
- L1 减少特征的数量
- L2 降低特征的权重
- L1 最优解出现的地方往往在坐标轴,L2 的最优解则比较随机
继续阅读本站其他精彩文章