什么是交叉验证法？

它的基本思想就是将原始数据（dataset）进行分组，一部分做为训练集来训练模型，另一部分做为测试集来评价模型。

为什么用交叉验证法？

交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合[泛化误差的估计]。【K交叉检验，可以用不同的数据作为测试集，来评估预测性能，预测泛化误差，肯定更准】还可以从有限的数据中获取尽可能多的有效信息[充分利用数据]。

主要有哪些方法？优缺点？

1. 留出法（holdout cross validation）

就是普通的trian set、 val set、 test set

2. k 折交叉验证（k-fold cross validation）：

k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差，因此模型的性能对数据的划分就不那么敏感。

第一步，不重复抽样将原始数据随机分为 k 份。第二步，每一次挑选其中 1 份作为测试集，剩余 k-1 份作为训练集用于模型训练。第三步，重复第二步 k 次，这样每个子集都有一次机会作为测试集，其余机会作为训练集。在每个训练集上训练后得到一个模型，用这个模型在相应的测试集上测试，计算并保存模型的评估指标，第四步，计算 k 组测试结果的平均值作为模型精度的估计，并作为当前 k 折交叉验证下模型的性能指标。

k 一般取 10：

数据量小的时候，k 可以设大一点，这样训练集占整体比例就比较大，不过同时训练的模型个数也增多。数据量大的时候，k 可以设小一点。

注意：

多次 k 折交叉验证再求均值，例如：10 次 10 折交叉验证，以求更精确一点。划分时有多种方法，例如对非平衡数据可以用分层采样，就是在每一份子集中都保持和原始数据集相同的类别比例。模型训练过程的所有步骤，包括模型选择，特征选择等都是在单个折叠 fold 中独立执行的。

3.留一法（Leave one out cross validation）

当 k＝m 即样本总数时，叫做留一法（Leave one out cross validation），每次的测试集都只有一个样本，要进行 m 次训练和预测。这个方法用于训练的数据只比整体数据集少了一个样本，因此最接近原始样本的分布。但是训练复杂度增加了，因为模型的数量与原始数据样本数量相同。一般在数据缺乏时使用。

4.Bootstrapping

还有一种比较特殊的交叉验证方式，Bootstrapping：通过自助采样法，即在含有 m 个样本的数据集中，每次随机挑选一个样本，再放回到数据集中，再随机挑选一个样本，这样有放回地进行抽样 m 次，组成了新的数据集作为训练集。这里会有重复多次的样本，也会有一次都没有出现的样本，原数据集中大概有 36.8% 的样本不会出现在新组数据集中。优点是训练集的样本总数和原数据集一样都是 m，并且仍有约 1/3 的数据不被训练而可以作为测试集。缺点是这样产生的训练集的数据分布和原数据集的不一样了，会引入估计偏差。此种方法不是很常用，除非数据量真的很少。

————————————————

参考链接1：

https://blog.csdn.net/e01528/article/details/89221713

参考链接2：

https://blog.csdn.net/aliceyangxi1987/article/details/73532651

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

HQY

要和谐，要有爱~

Day75:交叉验证

hqy 发表于2025-06-07 08:47:02 浏览20 评论0百度已收录

什么是交叉验证法？

为什么用交叉验证法？

主要有哪些方法？优缺点？

少长咸集