uu快3手游_uu快3分析_游戏 - uu快3手游,uu快3分析,游戏是新浪网最重要的频道之一,24小时滚动报道国内、国际及社会新闻。每日编发新闻数以万计。

集成学习之Boosting —— AdaBoost实现

  • 时间:
  • 浏览:2

/

输入: 训练数据集 \(T = \left \{(x_1,y_1), (x_2,y_2), \cdots (x_N,y_N)\right \}\)\(y\in\left\{-1,+1 \right\}\),基学习器\(G_m(x)\),训练轮数M

Margin理论还能够解释這個问题报告 ,认为随着训练轮数的增加,即使训练误差后后至零,对于训练样本预测的margin依然会扩大,这等于会不断提升预测的信心。但过去十几年来学术界一个劲对该理论处于争议,具体可参阅AdaBoost创造创造伟大的发明的论文 [Schapire, Explaining AdaBoost]。

AdaBoost有三个白 吸引人的特征,那就是其“越多过拟合”,后后更准确的说法是在训练误差下降到零后后继续训练依然能提高泛化性能。如下图所示,训练500棵树,Real AdaBoost的训练误差早早下降为零,而测试误差几乎平稳不变。已经 还能够都看 Real AdaBoost 对比 Discrete AdaBoost 无论是训练强度还是准确率都更胜一筹。

这里总共只挑选了500个数据 (250训练集 + 250测试集),后后learning curve的绘制通常时要拟合N个模型 (N为训练样本数),计算量越多。从上图来看Discrete AdaBoost是欠拟合,而Real AdaBoost比较像是过拟合,后后进一步增加数据,Real AdaBoost的测试误差率后后会进一步下降。

下两张图显示使用weight_trimming的情况下准确率与正常AdaBoost相差无几 (除了0.95的情况)。

\[G_m(x) = \mathop{\arg\min}\limits_{G(x)}\sum\limits_{i=1}^Nw_i^{(m)}\mathbb{I}(y_i \neq G(x_i))\] (b) 计算\(G_m(x)\)在训练集上的误差率:

下面来看AdaBoost在上面数据集中的learning curve:

Learning Curve是另两种评估模型的依据,反映随着训练集的增大,训练误差和测试误差的变化情况。通常后后两条曲线比较接近且误差都较大,为欠拟合;后后训练集误差率低,测试集误差率高,二者的曲线会处于较大距离,则为过拟合。