概述
监督学习和无监督学习是机器学习中两种最基础、最核心的学习范式,它们的核心区别在于数据是否带有标签。
监督学习

数据特点:使用带有标签(Label)的数据集进行训练,即每个样本的输入(特征)都对应一个已知的输出(标签)。
目标:学习输入到输出的映射关系(即模型函数),用于预测新样本的标签。
核心流程:输入数据:特征(Features) + 标签(Labels)。模型训练:通过优化算法(如梯度下降)最小化预测值与真实标签的误差。输出结果:对新样本进行预测(分类或回归)典型任务:分类(Classification):预测离散类别(如垃圾邮件识别、图像分类)。
回归(Regression):预测连续数值(如房价预测、股票趋势)
常见模型:
线性回归(Linear Regression),逻辑回归(Logistic Regression),决策树(Decision Tree),支持向量机(SVM)应用场景:
医疗诊断(根据症状预测疾病类型)信用评分(根据用户信息评估信用风险)
文本分类(如情感分析、新闻主题分类)
优缺点优点:目标明确(直接优化预测标签的准确性),结果易于评估。
缺点:依赖大量高质量标注数据,标注成本高;模型可能过拟合训练数据
无监督学习
数据特点:使用无标签的数据集,仅通过输入特征探索数据内在结构。
目标:发现数据中的隐藏模式、关系或分布,无需预先定义输出。
核心流程输入数据:仅特征(Features),无标签。
模型训练:通过算法自动发现数据的结构(如聚类、降维)。
输出结果:数据的分组、简化表示或生成新样本。
典型任务聚类(Clustering):将数据划分为相似的组(如客户分群、社交网络分析)。
降维(Dimensionality Reduction):压缩数据维度,保留关键信息(如数据可视化)。
关联规则(Association Rule):发现数据中的频繁模式(如购物篮分析)。
生成模型(Generative Model):学习数据分布并生成新样本(如GAN生成图像)。
常见算法K均值聚类(K-Means)
主成分分析(PCA)
自编码器(Autoencoder)
DBSCAN(密度聚类)
Apriori(关联规则挖掘)
应用场景市场细分(将用户分为不同群体)
异常检测(发现信用卡欺诈行为)
推荐系统(挖掘用户行为中的关联规则)
图像压缩(通过降维减少存储空间)
优缺点优点:无需标注数据,成本低;能发现未知的数据模式。
缺点:目标不明确(无标签导致评估困难);结果解释性较弱
对比
当前比较火的大语言模型,其预训练阶段采用的无监督,比较带label的数据相对于不带label的数据还是太少,无监督可以获取到大量的数据