×

机器学习27-特征工程(中文配音)

hqy hqy 发表于2025-04-13 02:43:33 浏览20 评论0百度已收录

抢沙发发表评论

特征的选择会对学习算法的性能产生巨大影响。事实上,对于许多实际应用而言,选择或构建正确的特征是使算法有效运行的关键步骤。在本视频中,我们将探讨如何为您的学习算法选择或设计最合适的特征。让我们以重温预测房价的例子来了解特征工程。

在此案例中,每个房屋有两个特征。

·第一个特征x1是房屋所在地块的临街面宽度,这在房地产中也被称为地块的正面宽度。

·第二个特征x2是该地块的纵深长度。

前提假设房屋建于矩形地块之上,给定这两个特征x1和x2,您可能构建如下模型。其中fx等于w1乘以x1加上w2乘以x2再加上b。其中x1表示连接面宽度,宽度x2表示深度。这个模型可能表现的还可以,但现在我向您展示另一种构建模型的思路。这种方法使用特征的方式可能更加高效。

您可能会注意到,土地面积可以通过临阶宽度与深度的乘积计算得出。直觉告诉我们,土地总面积相比单独的宽度或深度更能有效预测房价。因此,我们可以定义新特征x3等于x1乘以x2,这个新特征x3就代表了土地面积。这样构建的模型可以表示为fx等于w1乘以x1加上w2乘以x2再加上w3乘以x3最后加上b。

此时模型就可以根据数据的表现自适应的决定参数w1、w2和w3的值,具体取决于临阶宽度、深度或面积x3中。但结果发现,对于预测房价而言,最重要的因素是房屋面积。我们刚才所做的即创建一个新特征,这个过程被称为特征工程的典型案例。

特征工程需要您运用对该问题的专业知识或直觉来设计新特征。通常通过对原始特征进行转换或组合来实现,目的在于使学习算法更轻松的做出准确预测。因此根据您对应用场景的理解深度不同,相较于仅使用初始提供的特征,有时通过定义自己的特征可能会获得性能优越的多的模型。这就是特征工程的核心思想。

这种特殊的特征工程方法不仅能让模型拟合直线,还能拟合曲线和非线性函数。我们将在下个视频中具体探讨。