概述

监督学习和无监督学习是机器学习中两种最基础、最核心的学习范式，它们的核心区别在于数据是否带有标签。

监督学习

定义

数据特点：使用带有标签（Label）的数据集进行训练，即每个样本的输入（特征）都对应一个已知的输出（标签）。

目标：学习输入到输出的映射关系（即模型函数），用于预测新样本的标签。

核心流程：输入数据：特征（Features） + 标签（Labels）。模型训练：通过优化算法（如梯度下降）最小化预测值与真实标签的误差。输出结果：对新样本进行预测（分类或回归）典型任务：

分类（Classification）：预测离散类别（如垃圾邮件识别、图像分类）。

回归（Regression）：预测连续数值（如房价预测、股票趋势）

常见模型：

线性回归（Linear Regression），逻辑回归（Logistic Regression），决策树（Decision Tree），支持向量机（SVM）应用场景：

医疗诊断（根据症状预测疾病类型）

信用评分（根据用户信息评估信用风险）

文本分类（如情感分析、新闻主题分类）

优缺点

优点：目标明确（直接优化预测标签的准确性），结果易于评估。

缺点：依赖大量高质量标注数据，标注成本高；模型可能过拟合训练数据

无监督学习

定义

数据特点：使用无标签的数据集，仅通过输入特征探索数据内在结构。

目标：发现数据中的隐藏模式、关系或分布，无需预先定义输出。

核心流程

输入数据：仅特征（Features），无标签。

模型训练：通过算法自动发现数据的结构（如聚类、降维）。

输出结果：数据的分组、简化表示或生成新样本。

典型任务

聚类（Clustering）：将数据划分为相似的组（如客户分群、社交网络分析）。

降维（Dimensionality Reduction）：压缩数据维度，保留关键信息（如数据可视化）。

关联规则（Association Rule）：发现数据中的频繁模式（如购物篮分析）。

生成模型（Generative Model）：学习数据分布并生成新样本（如GAN生成图像）。

常见算法

K均值聚类（K-Means）

主成分分析（PCA）

自编码器（Autoencoder）

DBSCAN（密度聚类）

Apriori（关联规则挖掘）

应用场景

市场细分（将用户分为不同群体）

异常检测（发现信用卡欺诈行为）

推荐系统（挖掘用户行为中的关联规则）

图像压缩（通过降维减少存储空间）

优缺点

优点：无需标注数据，成本低；能发现未知的数据模式。

缺点：目标不明确（无标签导致评估困难）；结果解释性较弱

对比

当前比较火的大语言模型，其预训练阶段采用的无监督，比较带label的数据相对于不带label的数据还是太少，无监督可以获取到大量的数据

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

HQY

要和谐，要有爱~

机器学习——监督学习与无监督学习

hqy 发表于2025-04-21 00:53:34 浏览19 评论0百度已收录

概述

监督学习

无监督学习

对比

少长咸集