概述
Embedding 是一种将高维离散数据(如文本、图像、用户行为)映射到低维连续向量空间的技术。它将抽象对象(如单词、用户、商品)表示为稠密向量(Dense Vector),从而捕捉其内在语义或关联性。
输入:对象(如单词)的离散符号表示(如 one-hot 编码)。
输出:低维实数向量(通常 50-1000 维)
核心目标:在向量空间中,语义相似的对象距离更近(通过余弦相似度、欧氏距离衡量)。

用通俗的话来讲,就是对one-hot的稀疏矩阵进行降维
核心作用
解决维度灾难传统 one-hot 编码维度极高且稀疏(如词典有 10 万词 → 10 万维),Embedding 压缩至低维稠密空间,提升计算效率。
捕捉语义关系通过向量运算揭示隐含关系
迁移学习基础预训练的 Embedding(如 Word2Vec、BERT)可迁移至下游任务(如文本分类),减少数据需求。
生成办法
应用场景
自然语言处理(NLP)语义搜索:通过向量相似度匹配查询与文档(如 ElasticSearch 的 dense vector 检索)。
文本分类:将句子 Embedding 输入分类器(如 FastText)。
机器翻译:对齐不同语言的 Embedding 空间。
推荐系统协同过滤:用户和物品的 Embedding 向量内积预测评分(如 Matrix Factorization)。
序列推荐:用户行为序列的 Embedding 建模(如 GRU4Rec)。
计算机视觉图像检索:ResNet 提取图像 Embedding,相似图片向量距离近。
跨模态对齐:CLIP 模型对齐文本和图像 Embedding。