×

机器学习——监督学习与无监督学习

hqy hqy 发表于2025-04-21 00:53:34 浏览19 评论0百度已收录

抢沙发发表评论

概述

监督学习和无监督学习是机器学习中两种最基础、最核心的学习范式,它们的核心区别在于数据是否带有标签。

监督学习

定义

数据特点:使用带有标签(Label)的数据集进行训练,即每个样本的输入(特征)都对应一个已知的输出(标签)。

目标:学习输入到输出的映射关系(即模型函数),用于预测新样本的标签。

核心流程:输入数据:特征(Features) + 标签(Labels)。模型训练:通过优化算法(如梯度下降)最小化预测值与真实标签的误差。输出结果:对新样本进行预测(分类或回归)典型任务:

分类(Classification):预测离散类别(如垃圾邮件识别、图像分类)。

回归(Regression):预测连续数值(如房价预测、股票趋势)

常见模型:

线性回归(Linear Regression),逻辑回归(Logistic Regression),决策树(Decision Tree),支持向量机(SVM)应用场景:

医疗诊断(根据症状预测疾病类型)

信用评分(根据用户信息评估信用风险)

文本分类(如情感分析、新闻主题分类)

优缺点

优点:目标明确(直接优化预测标签的准确性),结果易于评估。

缺点:依赖大量高质量标注数据,标注成本高;模型可能过拟合训练数据

无监督学习

定义

数据特点:使用无标签的数据集,仅通过输入特征探索数据内在结构。

目标:发现数据中的隐藏模式、关系或分布,无需预先定义输出。

核心流程

输入数据:仅特征(Features),无标签。

模型训练:通过算法自动发现数据的结构(如聚类、降维)。

输出结果:数据的分组、简化表示或生成新样本。

典型任务

聚类(Clustering):将数据划分为相似的组(如客户分群、社交网络分析)。

降维(Dimensionality Reduction):压缩数据维度,保留关键信息(如数据可视化)。

关联规则(Association Rule):发现数据中的频繁模式(如购物篮分析)。

生成模型(Generative Model):学习数据分布并生成新样本(如GAN生成图像)。

常见算法

K均值聚类(K-Means)

主成分分析(PCA)

自编码器(Autoencoder)

DBSCAN(密度聚类)

Apriori(关联规则挖掘)

应用场景

市场细分(将用户分为不同群体)

异常检测(发现信用卡欺诈行为)

推荐系统(挖掘用户行为中的关联规则)

图像压缩(通过降维减少存储空间)

优缺点

优点:无需标注数据,成本低;能发现未知的数据模式。

缺点:目标不明确(无标签导致评估困难);结果解释性较弱

对比

当前比较火的大语言模型,其预训练阶段采用的无监督,比较带label的数据相对于不带label的数据还是太少,无监督可以获取到大量的数据