交叉验证

交叉验证是估计预测误差最简单且广泛使用的方法。
通常情况下，我们的数据量都是不足够多的，如果在本来就不多的数据集中再划分出一部分作为验证集，那可供学习的数据就更少了。为了解决这一问题，K-折交叉验证将数据集分成容量大致相等的K个部分，如下图：

对于第kkk(k=1,2,⋯,Kk=1,2,\cdots,Kk=1,2,⋯,K)部分，我们首先用其他K-1个部分的数据对学习器进行训练，再预测第kkk部分数据时计算预测误差。依次通过k=1,2,⋯,Kk=1,2,\cdots,Kk=1,2,⋯,K循环此操作，最后合并预测误差的KKK个估计。
具体地，令 κ:{1,⋯,N}↦{1,⋯,K}\kappa:\{1, \cdots, N\} \mapsto\{1, \cdots, K\}κ:{1,⋯,N}↦{1,⋯,K} 是一个指标函数，它指出观测 iii 被随机指派到其上的划分。用 f^−k(x)\hat{f}^{-k}(x)f^−k(x) 表示拟合函数，用删除第 kkk 部分后的数据计算。那么，预测误差的交叉验证估计是：
CV(α)=1N∑i=1NL(yi,f^−κ(i)(xi))\mathrm{CV(\alpha)}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}^{-\kappa(i)}\left(x_{i}\right)\right) CV(α)=N1i=1∑NL(yi,f^−κ(i)(xi))
我们可以通过CV(α)CV(\alpha)CV(α)的极小化找到相应的调整参数α^\hat \alphaα^，得到最终的模型f(x,α^)f(x,\hat \alpha)f(x,α^).
对于KKK值的选择，我们首先要知道，当KKK值越大时，真实预测误差的方差会越来越大，当KKK值较小时，又会出现偏倚等问题。我们再来看下图中的学习曲线：
这是一个（1-Err）关于训练集容量N的函数曲线图，当N达到100时分类器的性能已经有较大改观，当达到160时，性能已经与200时的性能相差无几，这样训练集容量为160对应的5折交叉验证将不会有太大的偏倚。
对于平方误差损失下的线性拟合,广义交叉验证( generalized cross-validation)提供了一种对留一交叉验证方便的还近。和第 7.6 节中定义的一样,线性拟合方法可以写成:
y^=Sy\hat{\mathbf{y}}=\mathbf{S y} y^=Sy
现在，对许多线代拟合方法,
1N∑i=1N[yi−f^−i(xi)]2=1N∑i=1N[yi−f^(xi)1−Sii]2\frac{1}{N} \sum_{i=1}^{N}\left[y_{i}-\hat{f}^{-i}\left(x_{i}\right)\right]^{2}=\frac{1}{N} \sum_{i=1}^{N}\left[\frac{y_{i}-\hat{f}\left(x_{i}\right)}{1-S_{i i}}\right]^{2} N1i=1∑N[yi−f^−i(xi)]2=N1i=1∑N[1−Siiyi−f^(xi)]2
其中, SiiS_{i i}Sii 是 S\mathbf{S}S 的第 iii 个对角元素， GCV 逼近是:
GCV=1N∑i=1N[yi−f^(xi)1−trace⁡(S)/N)]2\mathrm{GCV}=\frac{1}{N} \sum_{i=1}^{N}\left[\frac{y_{i}-\hat{f}\left(x_{i}\right)}{1-\operatorname{trace}(\mathbf{S}) / N)}\right]^{2} GCV=N1i=1∑N[1−trace(S)/N)yi−f^(xi)]2

交叉验证——ESL chapter7.10相关推荐

【机器学习】交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图
[机器学习]交叉验证详细解释+10种常见的验证方法具体代码实现+可视化图一.使用背景由于在训练集上,通过调整参数设置使估计器的性能达到了最佳状态:但在测试集上可能会出现过拟合的情况. 此时,测试集 ...
十折交叉验证10-fold cross validation, 数据集划分训练集验证集测试集
机器学习数据挖掘数据集划分训练集验证集测试集 Q:如何将数据集划分为测试数据集和训练数据集? A:three ways: 1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数 ...
Python的数据分析中交叉验证
[小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python的数据分析中交叉验证 ● 选择题以下说法错误的是: A ...
机器学习之选择小样本交叉验证训练模型并使用精确率、召回率、F1分数和AUC值、画出ROC曲线评估
题目如下 (1)读入aviation数据集,设置MEMBER_NO为索引列:(4分) (2)剔除重复值.缺失值.(4分) (3)随机抽取500样本,切片特征X和标签Y:(4分) 因为调参很慢,所以这里 ...
matlab-K折交叉验证与分层K折交叉验证
文章目录 K折交叉验证有什么用? 如何实现K折交叉验证? K折交叉验证的要点:(文字版) 如何实现K折交叉验证(图片版) 如何实现K折交叉验证(matlab版) 为啥我们需要分层K折交叉验证? 如何实 ...
深度学习：交叉验证（Cross Validation）
首先,交叉验证的目的是为了让被评估的模型达到最优的泛化性能,找到使得模型泛化性能最优的超参值.在全部训练集上重新训练模型,并使用独立测试集对模型性能做出最终评价. 目前在一些论文里倒是没有特别强调这样 ...
朴素贝叶斯、精确率与召回率、交叉验证
朴素贝叶斯.精确率与召回率.交叉验证一.朴素贝叶斯 (1)朴素贝叶斯的原理 (2)朴素贝叶斯公式的使用二.朴素贝叶斯API (1)朴素贝叶斯案例 (2)朴素贝叶斯总结三.分类模型的评估 (1)混 ...
模型效果优化，试一下多种交叉验证的方法(系统实操)
我们在建模时,经常会遇到这样的情况:模型在训练样本集上拟合成功后的性能评价指标都表现较好,但在测试样本集上的验证效果却表现很差,这种偏差情况出现的原因,往往是模型出现了过拟合问题(如图1所示),直接反 ...
5折交叉验证_测试集训练集验证
10折交叉验证(10-fold Cross Validation) 用来测试算法准确性.是常用的测试方法.将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验.每次试验都会得出相应 ...

交叉验证——ESL chapter7.10

交叉验证

交叉验证——ESL chapter7.10相关推荐

最新文章

热门文章