【原理】机器学习欠拟合与过拟合

小编邀请您，先思考：

1 什么是欠拟合？

2 什么是过拟合？

在数据科学学科中，过度拟合(overfit)模型被解释为一个从训练集(training set)中得到了高方差(variance)和低偏差(bias)，导致其在测试数据中得到低泛化(generalization)的模型。

过度拟合的模型具有高方差、低偏差的特点。那么相反的情况：一个低方差、高偏差的模型又会是什么样呢？这被称作欠拟合。

对数据的过度关注会导致过度拟合，对数据的忽视又会导致欠拟合，那么我们到底该怎么办呢？一定有一个能找到最佳平衡点的办法！值得庆幸的是，在数据科学中，有一个很好的解决方案，叫作“验证(Validation)”。最理想的情况是，我们能够用一个模拟测试集去对模型进行评估，并在真实测试之前对模型进行改进。这个模拟测试集被称作验证集(validation set)，是模型研发工作中非常关键的部分。

数据科学看似复杂，但它其实都是通过一系列基础的模块搭建而成的。其中的一些概念已经在这篇文章中提到过，它们是：

过度拟合：过度依赖于训练数据

欠拟合：无法获取训练数据中的存在的关系

高方差：一个模型基于训练数据产生了剧烈的变化

高偏差：一个忽视了训练数据的模型假设

过度拟合和欠拟合造成对测试集的低泛化性

使用验证集对模型进行校正可以避免实际过程中造成的欠拟合和过度拟合

数据科学和其它科技领域其实与我们的日常生活息息相关。在一些与现实有关的例子的帮助下，我们可以很好地解释并理解这些概念。一旦我们了解了一个框架，我们就能够用技术来处理所有的细节，从而解决难题。

文章推荐：

1 机器学习偏差与方差

亲爱的读者朋友们，您们有什么想法，请点击【写留言】按钮，写下您的留言。

数据人网（http://shujuren.org）诚邀各位数据人来平台分享和传播优质数据知识。