Embedding 词嵌入

发表于 2025-07-03 更新于 2025-07-05 阅读次数：本文字数： 1k 阅读时长 ≈ 1 分钟

消除偏序关系离散特征（如颜色：红、绿、蓝）的原始数值编码（如红 = 1、绿 = 2、蓝 = 3）会隐含不存在的 “偏序关系”（即算法可能误认为 “红 < 绿 < 蓝”）。而 One-Hot 编码通过独热向量（如红 =[1,0,0]、绿 =[0,1,0]、蓝 =[0,0,1]）让每个类别独立且平等，避免算法误判。

等距性 One-Hot 编码后，任意两个类别在向量空间中的距离是相等的（如红与绿的距离 = 红与蓝的距离 =√2）。这保证了算法不会因编码方式对某些类别产生偏好。

兼容连续特征的处理方法 One-Hot 编码将离散特征转换为多维的二元向量后，每一维都可以视为连续值（0 或 1），从而可以像连续特征一样进行归一化（如缩放到 [-1,1] 或标准化为均值为 0、方差为 1）。

解释 “One-Hot 编码后，每一维可视为连续值，并可归一化” 1. One-Hot 编码的结果是二元向量 One-Hot 编码将离散的类别特征（如 “颜色：红、绿、蓝”）转换为多维的二元向量（仅含 0 或 1）。例如：

红 → [1, 0, 0]

绿 → [0, 1, 0]

蓝 → [0, 0, 1]

每个向量的维度数等于类别总数，且只有一个位置是 1（表示当前类别），其余为 0。

为什么说 “可以视为连续值”？虽然 One-Hot 编码的取值是离散的（0 或 1），但从数学处理的角度，可以将其看作连续的数值，原因如下：

数值性质：0 和 1 是实数，可以参与连续值的数学运算（如加减、乘除、求均值等）。

算法兼容性：许多机器学习算法（如神经网络、回归模型）默认输入是连续值。将 One-Hot 向量视为连续值后，可以直接输入这些模型，无需特殊处理。

注意：严格来说，One-Hot 编码是离散的，但因其数值特性，实践中常按连续值处理。

word2vec

word2vec 工具是为了解决上述问题而提出的。它将每个词映射到一个固定长度的向量，这些向量能更好地表达不同词之间的相似性和类比关系。word2vec 工具包含两个模型，即跳元模型（skip-gram） (Mikolov et al., 2013) 和连续词袋（CBOW） (Mikolov et al., 2013)。对于在语义上有意义的表示，它们的训练依赖于条件概率，条件概率可以被看作使用语料库中一些词来预测另一些单词。由于是不带标签的数据，因此跳元模型和连续词袋都是自监督模型。

https://blog.csdn.net/bitcarmanlee/article/details/82291968