×

机器学习是干啥的?72个知识点,新手入门不迷茫!

hqy hqy 发表于2025-07-18 10:50:25 浏览5 评论0百度已收录

抢沙发发表评论

文| 智核风云录

编辑| 一路生花

——【·前言·】——

搞懂基础:从“机器学习是啥”到常见术语,先把地基打稳

机器学习到底是个啥?

好多人听说过机器学习,可具体是干啥的呢?简单说,就是让计算机像人一样“学本事”。

比如你学看天气预报判断要不要带伞,计算机学大量天气数据后,也能根据温度、湿度这些信息,告诉你明天该不该带伞。

这就叫机器学习——让机器从数据里找规律,自己“长经验”。

机器学习分三类,用途大不同

·监督学习:最常见,就像老师带着学生做题。数据里既有“问题”也有“答案”——

比如给计算机一堆房价数据,每个数据都标好“面积、位置”(问题)和“价格”(答案),计算机学会后,给个新的面积和位置,它就能算出价格。生活里的无效邮件分类、人脸识别,都是监督学习的例子。

·无监督学习:没人给答案,让机器自己找规律。

比如把一堆用户购物记录丢给计算机,它自己能发现“买奶粉的用户常买尿布”,这就是聚类分析。像社交网络分组、市场用户分群,都是无监督学习在干活。

· 强化学习:靠“试错”学本事,比如游戏里的AI机器人,每次操作后,系统给奖励或惩罚,它慢慢就知道“这样操作能赢”。自动驾驶汽车的决策系统,很多就是靠强化学习练出来的。

这些术语天天见,搞不懂根本没法入门

·特征:就是数据里的“关键信息”。比如选西瓜时,你看“纹路清晰不清晰”“敲起来响不响”,这就是特征。机器学习里,数据的特征可能是图像的像素值、文本的关键词、用户的年龄性别等。

·标签:监督学习里的“答案”。比如房价数据里的“价格”,无效邮件分类里的“是无效邮件/不是无效邮件”,就是标签。

·模型:可以理解为“计算公式的集合”。比如用线性回归模型算房价,它就是一个“y = ax1 + bx2 + c”的公式,通过数据训练,算出a、b、c这些参数,模型就成型了。

·训练数据:用来让模型“学本事”的数据,就像学生的练习题。比如用10万条房价数据训练模型,这10万条就是训练数据。

·测试数据:考完试要批改,测试数据就是用来检验模型学得好不好的数据。拿没见过的1万条房价数据让模型预测,看和真实价格差多少,这就是测试。

核心算法:从简单到复杂,搞懂这些才算摸到门槛

1. 回归算法:解决“数值预测”问题,比如房价、销量

线性回归:最简单的回归算法,假设数据符合一条直线(或平面、超平面)。

比如房价和面积的关系,假设“房价 = 面积×1万 + 50万”,通过数据算出“1万”和“50万”这两个参数,就得到模型。

但现实中数据很少这么“规矩”,所以线性回归常用于简单场景,或者作为复杂模型的基础。

·逻辑回归:名字带“回归”,其实是分类算法,用来判断“是”或“不是”。

比如判断邮件是否是无效邮件,它会算出一个概率,超过50%就判定为无效邮件。原理和线性回归类似,但最后加了个函数,把结果“卡”在0到1之间,代表概率。

2. 树模型:像“层层提问”做决策,直观又好用

·决策树:比如给动物分类,先问“有没有羽毛?”,有羽毛的是鸟类,没有的再问“会不会飞?”,不会飞的是哺乳动物(比如狗),会飞的是蝙蝠。决策树就是这样,通过一系列“问题”(特征判断),把数据分成不同类别。优点是结果直观,能看懂每一步怎么决策;缺点是容易“过拟合”,也就是学太死板,遇到新数据反而不准。

·随机森林:“一群决策树合伙干活”。比如预测用户是否会购买商品,不是建一棵决策树,是建100棵,每棵树用不同的训练数据和特征,最后投票决定结果。就像一群人一起投票,比一个人说了算更准。随机森林解决了单棵决策树过拟合的问题,是实战中常用的算法。

神经网络:模仿人脑结构,处理复杂数据的“大杀器”

·神经元:人脑神经元互相连接,接收信号后决定是否“激活”。神经网络里的“神经元”类似,比如接收多个特征(数据),每个特征乘一个权重(相当于重要性),相加后如果超过某个阈值,就输出1,否则输出0。

·多层神经网络(深度学习):把神经元分层,比如输入层、隐藏层、输出层。输入层接收数据(比如图像的像素值),隐藏层层层处理(每层提取不同的特征,比如第一层提取边缘,第二层提取形状,第三层提取物体),最后输出层给出结果(比如“这是猫”)。深度学习在图像识别、语音识别、自然语言处理等领域特别厉害,比如AlphaGo就是靠深度神经网络打败人类的。

其他常用算法:各有特长,看场景选

· K近邻(KNN):判断一个数据属于哪个类别,就看它周围“邻居”多数属于哪个类别。比如新来了一个水果,看它附近的10个水果里,8个是苹果,2个是梨,就认为它是苹果。简单易懂,但数据量大时计算慢。

·支持向量机(SVM):找一条“最优分界线”把不同类别分开。比如区分猫狗图像,SVM会找一个边界,让猫狗数据点离这条边界尽可能远,这样新数据来了更容易判断。常用于小样本、高维数据分类。

实战必备:从数据处理到模型优化,这些坑别踩

1. 数据预处理:数据质量决定模型上限,别在“无效数据”上浪费时间

·缺失值处理:比如学生成绩表中,某个人的数学成绩没填。怎么处理?简单的方法是用平均值、中位数填充(比如数学平均分80,就填80),或者直接删掉这一行。但要注意,如果缺失值太多,删掉可能丢了重要信息;填平均值可能让数据失真。

·归一化/标准化:把不同范围的数据“缩放到同一尺度”。比如年龄是0 - 100岁,收入是0 - 100万,直接放进模型,收入的“权重”会比年龄大很多。归一化后,都变成0 - 1之间的数,模型更容易学。

·独热编码(One - Hot):把“类别型数据”转成数字。比如“颜色”有红、绿、蓝,直接写成1、2、3,模型可能会误解“红和绿的差距是1,绿和蓝的差距也是1”,但其实它们是并列关系。独热编码后,用三个新特征分别表示是否是红、绿、蓝,比如红色就是[1,0,0],绿色是[0,1,0],这样更准确。

模型评估:怎么知道模型“学得好不好”?这几个指标要记牢

· 准确率(Accuracy):预测对的比例。比如100个样本,预测对了80个,准确率80%。但遇到“不平衡数据”(比如正样本90个,负样本10个),即使全预测成正样本,准确率也有90%,但其实没意义。

·精确率(Precision):预测为正样本的里面,真正正确的比例。比如模型说10个是无效邮件,其中8个真的是,精确率80%。

·召回率(Recall):真正的正样本中,被预测对的比例。比如实际有20个无效邮件,模型找出16个,召回率80%。

·F1分数:精确率和召回率的“调和平均数”,用来平衡两者,当数据不平衡时,比准确率更靠谱。

·均方误差(MSE):回归问题常用,计算预测值和真实值的平均平方差,越小说明预测越准。

过拟合与欠拟合:模型“学过头”或“没学会”,怎么办?

·过拟合:模型把训练数据的“噪声”也学进去了,比如背题时记住了每道题的细节,却没学会解题方法,遇到新题就不会做。表现是训练数据上准确率很高,测试数据上很低。

解决办法:增加训练数据、简化模型(比如减少神经网络层数)、加正则化(惩罚复杂的模型)。

·欠拟合:模型太简单,没抓住数据的规律,比如用直线拟合曲线数据,怎么都拟合不好。表现是训练和测试数据上准确率都低。解决办法:换更复杂的模型(比如用神经网络代替线性回归)、增加特征、调整模型参数。

特征工程:“选对特征”比“调参”更重要,老司机都在这花时间

·特征选择:从一堆特征里挑出有用的。比如预测房价,“小区名字”可能没啥用,“面积、楼层、位置”更重要。常用方法:计算特征和标签的相关性,相关性低的删掉;用模型看哪些特征权重高,保留高权重的。

·特征构造:从原始数据里“造”出新特征。比如“用户购买时间”是2023年10月,可以拆成“年份”“月份”,或者算出“距离现在多久”;“文本数据”可以提取关键词频率、用TF - IDF算法转化为数值特征。

总结:72个知识点是基础,实战才是硬道理

上面讲的72个知识点,从基础概念到核心算法,再到实战技巧,都是机器学习的“地基”。但光看懂没用,得动手练——找个数据集(比如Kaggle上的房价数据、iris鸢尾花数据),用Python的Scikit - learn库试试,调调参数,看看模型效果怎么变。机器学习就像学开车,知识点是理论,实战才是练技术。

收藏这篇文章,没事翻一翻,慢慢就入门了。

好了,本期的分享就到这里,我是 智核风云录,请以此篇文章以飨读者,我们下期再见!

出自《智核风云录》丨一路生花

本内容以及图片引用网络素材,如有侵权,可通知下 架。