×

人工智能——Embedding

hqy hqy 发表于2025-04-29 05:58:23 浏览23 评论0百度已收录

抢沙发发表评论

概述

Embedding 是一种将高维离散数据(如文本、图像、用户行为)映射到低维连续向量空间的技术。它将抽象对象(如单词、用户、商品)表示为稠密向量(Dense Vector),从而捕捉其内在语义或关联性。

输入:对象(如单词)的离散符号表示(如 one-hot 编码)。

输出:低维实数向量(通常 50-1000 维)

核心目标:在向量空间中,语义相似的对象距离更近(通过余弦相似度、欧氏距离衡量)。

用通俗的话来讲,就是对one-hot的稀疏矩阵进行降维

核心作用

解决维度灾难

传统 one-hot 编码维度极高且稀疏(如词典有 10 万词 → 10 万维),Embedding 压缩至低维稠密空间,提升计算效率。

捕捉语义关系

通过向量运算揭示隐含关系

迁移学习基础

预训练的 Embedding(如 Word2Vec、BERT)可迁移至下游任务(如文本分类),减少数据需求。

生成办法

应用场景

自然语言处理(NLP)

语义搜索:通过向量相似度匹配查询与文档(如 ElasticSearch 的 dense vector 检索)。

文本分类:将句子 Embedding 输入分类器(如 FastText)。

机器翻译:对齐不同语言的 Embedding 空间。

推荐系统

协同过滤:用户和物品的 Embedding 向量内积预测评分(如 Matrix Factorization)。

序列推荐:用户行为序列的 Embedding 建模(如 GRU4Rec)。

计算机视觉

图像检索:ResNet 提取图像 Embedding,相似图片向量距离近。

跨模态对齐:CLIP 模型对齐文本和图像 Embedding。

与传统编码对比