概述

Embedding 是一种将高维离散数据（如文本、图像、用户行为）映射到低维连续向量空间的技术。它将抽象对象（如单词、用户、商品）表示为稠密向量（Dense Vector），从而捕捉其内在语义或关联性。

输入：对象（如单词）的离散符号表示（如 one-hot 编码）。

输出：低维实数向量（通常 50-1000 维）

核心目标：在向量空间中，语义相似的对象距离更近（通过余弦相似度、欧氏距离衡量）。

用通俗的话来讲，就是对one-hot的稀疏矩阵进行降维

核心作用

解决维度灾难

传统 one-hot 编码维度极高且稀疏（如词典有 10 万词 → 10 万维），Embedding 压缩至低维稠密空间，提升计算效率。

捕捉语义关系

通过向量运算揭示隐含关系

迁移学习基础

预训练的 Embedding（如 Word2Vec、BERT）可迁移至下游任务（如文本分类），减少数据需求。

自然语言处理（NLP）

语义搜索：通过向量相似度匹配查询与文档（如 ElasticSearch 的 dense vector 检索）。

文本分类：将句子 Embedding 输入分类器（如 FastText）。

机器翻译：对齐不同语言的 Embedding 空间。

推荐系统

协同过滤：用户和物品的 Embedding 向量内积预测评分（如 Matrix Factorization）。

序列推荐：用户行为序列的 Embedding 建模（如 GRU4Rec）。

计算机视觉

图像检索：ResNet 提取图像 Embedding，相似图片向量距离近。

跨模态对齐：CLIP 模型对齐文本和图像 Embedding。