文| 智核风云录

编辑| 一路生花

——【·前言·】——

搞懂基础：从“机器学习是啥”到常见术语，先把地基打稳

机器学习到底是个啥？

好多人听说过机器学习，可具体是干啥的呢？简单说，就是让计算机像人一样“学本事”。

比如你学看天气预报判断要不要带伞，计算机学大量天气数据后，也能根据温度、湿度这些信息，告诉你明天该不该带伞。

这就叫机器学习——让机器从数据里找规律，自己“长经验”。

机器学习分三类，用途大不同

·监督学习：最常见，就像老师带着学生做题。数据里既有“问题”也有“答案”——

比如给计算机一堆房价数据，每个数据都标好“面积、位置”（问题）和“价格”（答案），计算机学会后，给个新的面积和位置，它就能算出价格。生活里的无效邮件分类、人脸识别，都是监督学习的例子。

·无监督学习：没人给答案，让机器自己找规律。

比如把一堆用户购物记录丢给计算机，它自己能发现“买奶粉的用户常买尿布”，这就是聚类分析。像社交网络分组、市场用户分群，都是无监督学习在干活。

· 强化学习：靠“试错”学本事，比如游戏里的AI机器人，每次操作后，系统给奖励或惩罚，它慢慢就知道“这样操作能赢”。自动驾驶汽车的决策系统，很多就是靠强化学习练出来的。

这些术语天天见，搞不懂根本没法入门

·特征：就是数据里的“关键信息”。比如选西瓜时，你看“纹路清晰不清晰”“敲起来响不响”，这就是特征。机器学习里，数据的特征可能是图像的像素值、文本的关键词、用户的年龄性别等。

·标签：监督学习里的“答案”。比如房价数据里的“价格”，无效邮件分类里的“是无效邮件/不是无效邮件”，就是标签。

·模型：可以理解为“计算公式的集合”。比如用线性回归模型算房价，它就是一个“y = ax1 + bx2 + c”的公式，通过数据训练，算出a、b、c这些参数，模型就成型了。

·训练数据：用来让模型“学本事”的数据，就像学生的练习题。比如用10万条房价数据训练模型，这10万条就是训练数据。

·测试数据：考完试要批改，测试数据就是用来检验模型学得好不好的数据。拿没见过的1万条房价数据让模型预测，看和真实价格差多少，这就是测试。

核心算法：从简单到复杂，搞懂这些才算摸到门槛

1. 回归算法：解决“数值预测”问题，比如房价、销量

线性回归：最简单的回归算法，假设数据符合一条直线（或平面、超平面）。

比如房价和面积的关系，假设“房价 = 面积×1万 + 50万”，通过数据算出“1万”和“50万”这两个参数，就得到模型。

但现实中数据很少这么“规矩”，所以线性回归常用于简单场景，或者作为复杂模型的基础。

·逻辑回归：名字带“回归”，其实是分类算法，用来判断“是”或“不是”。

比如判断邮件是否是无效邮件，它会算出一个概率，超过50%就判定为无效邮件。原理和线性回归类似，但最后加了个函数，把结果“卡”在0到1之间，代表概率。

2. 树模型：像“层层提问”做决策，直观又好用

·决策树：比如给动物分类，先问“有没有羽毛？”，有羽毛的是鸟类，没有的再问“会不会飞？”，不会飞的是哺乳动物（比如狗），会飞的是蝙蝠。决策树就是这样，通过一系列“问题”（特征判断），把数据分成不同类别。优点是结果直观，能看懂每一步怎么决策；缺点是容易“过拟合”，也就是学太死板，遇到新数据反而不准。

·随机森林：“一群决策树合伙干活”。比如预测用户是否会购买商品，不是建一棵决策树，是建100棵，每棵树用不同的训练数据和特征，最后投票决定结果。就像一群人一起投票，比一个人说了算更准。随机森林解决了单棵决策树过拟合的问题，是实战中常用的算法。

神经网络：模仿人脑结构，处理复杂数据的“大杀器”

·神经元：人脑神经元互相连接，接收信号后决定是否“激活”。神经网络里的“神经元”类似，比如接收多个特征（数据），每个特征乘一个权重（相当于重要性），相加后如果超过某个阈值，就输出1，否则输出0。

·多层神经网络（深度学习）：把神经元分层，比如输入层、隐藏层、输出层。输入层接收数据（比如图像的像素值），隐藏层层层处理（每层提取不同的特征，比如第一层提取边缘，第二层提取形状，第三层提取物体），最后输出层给出结果（比如“这是猫”）。深度学习在图像识别、语音识别、自然语言处理等领域特别厉害，比如AlphaGo就是靠深度神经网络打败人类的。

其他常用算法：各有特长，看场景选

· K近邻（KNN）：判断一个数据属于哪个类别，就看它周围“邻居”多数属于哪个类别。比如新来了一个水果，看它附近的10个水果里，8个是苹果，2个是梨，就认为它是苹果。简单易懂，但数据量大时计算慢。

·支持向量机（SVM）：找一条“最优分界线”把不同类别分开。比如区分猫狗图像，SVM会找一个边界，让猫狗数据点离这条边界尽可能远，这样新数据来了更容易判断。常用于小样本、高维数据分类。

实战必备：从数据处理到模型优化，这些坑别踩

1. 数据预处理：数据质量决定模型上限，别在“无效数据”上浪费时间

·缺失值处理：比如学生成绩表中，某个人的数学成绩没填。怎么处理？简单的方法是用平均值、中位数填充（比如数学平均分80，就填80），或者直接删掉这一行。但要注意，如果缺失值太多，删掉可能丢了重要信息；填平均值可能让数据失真。

·归一化/标准化：把不同范围的数据“缩放到同一尺度”。比如年龄是0 - 100岁，收入是0 - 100万，直接放进模型，收入的“权重”会比年龄大很多。归一化后，都变成0 - 1之间的数，模型更容易学。

·独热编码（One - Hot）：把“类别型数据”转成数字。比如“颜色”有红、绿、蓝，直接写成1、2、3，模型可能会误解“红和绿的差距是1，绿和蓝的差距也是1”，但其实它们是并列关系。独热编码后，用三个新特征分别表示是否是红、绿、蓝，比如红色就是[1,0,0]，绿色是[0,1,0]，这样更准确。

模型评估：怎么知道模型“学得好不好”？这几个指标要记牢

· 准确率（Accuracy）：预测对的比例。比如100个样本，预测对了80个，准确率80%。但遇到“不平衡数据”（比如正样本90个，负样本10个），即使全预测成正样本，准确率也有90%，但其实没意义。

·精确率（Precision）：预测为正样本的里面，真正正确的比例。比如模型说10个是无效邮件，其中8个真的是，精确率80%。

·召回率（Recall）：真正的正样本中，被预测对的比例。比如实际有20个无效邮件，模型找出16个，召回率80%。

·F1分数：精确率和召回率的“调和平均数”，用来平衡两者，当数据不平衡时，比准确率更靠谱。

·均方误差（MSE）：回归问题常用，计算预测值和真实值的平均平方差，越小说明预测越准。

过拟合与欠拟合：模型“学过头”或“没学会”，怎么办？

·过拟合：模型把训练数据的“噪声”也学进去了，比如背题时记住了每道题的细节，却没学会解题方法，遇到新题就不会做。表现是训练数据上准确率很高，测试数据上很低。

解决办法：增加训练数据、简化模型（比如减少神经网络层数）、加正则化（惩罚复杂的模型）。

·欠拟合：模型太简单，没抓住数据的规律，比如用直线拟合曲线数据，怎么都拟合不好。表现是训练和测试数据上准确率都低。解决办法：换更复杂的模型（比如用神经网络代替线性回归）、增加特征、调整模型参数。

特征工程：“选对特征”比“调参”更重要，老司机都在这花时间

·特征选择：从一堆特征里挑出有用的。比如预测房价，“小区名字”可能没啥用，“面积、楼层、位置”更重要。常用方法：计算特征和标签的相关性，相关性低的删掉；用模型看哪些特征权重高，保留高权重的。

·特征构造：从原始数据里“造”出新特征。比如“用户购买时间”是2023年10月，可以拆成“年份”“月份”，或者算出“距离现在多久”；“文本数据”可以提取关键词频率、用TF - IDF算法转化为数值特征。

总结：72个知识点是基础，实战才是硬道理

上面讲的72个知识点，从基础概念到核心算法，再到实战技巧，都是机器学习的“地基”。但光看懂没用，得动手练——找个数据集（比如Kaggle上的房价数据、iris鸢尾花数据），用Python的Scikit - learn库试试，调调参数，看看模型效果怎么变。机器学习就像学开车，知识点是理论，实战才是练技术。

收藏这篇文章，没事翻一翻，慢慢就入门了。

好了，本期的分享就到这里，我是智核风云录，请以此篇文章以飨读者，我们下期再见！

出自《智核风云录》丨一路生花

本内容以及图片引用网络素材，如有侵权，可通知下架。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

HQY

要和谐，要有爱~

机器学习是干啥的？72个知识点，新手入门不迷茫！

hqy 发表于2025-07-18 10:50:25 浏览5 评论0百度已收录