机器学习中的Embedding

Posted 2022-11-27 langb2014

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习中的Embedding相关的知识，希望对你有一定的参考价值。

来自知乎的一个解释：（版权归原作者所有，仅供学习，禁止商用）

https://zhuanlan.zhihu.com/p/46016518

解释还是有点感觉迷糊，数学解释：

Embedding在数学上表示一个maping, f: X -> Y，也就是一个function，其中该函数是injective（就是我们所说的单射函数，每个Y只有唯一的X对应，反之亦然）和structure-preserving (结构保存，比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2)。那么对于word embedding，就是将单词word映射到另外一个空间，其中这个映射具有injective和structure-preserving的特点。

通俗的翻译可以认为是单词嵌入，就是把X所属空间的单词映射为到Y空间的多维向量，那么该多维向量相当于嵌入到Y所属空间中，一个萝卜一个坑。

word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。

推广开来，还有image embedding, video embedding, 都是一种将源数据映射到另外一个空间。（https://www.zhihu.com/question/32275069）

这下有点懂了。

Image Embeddings呢？

Feature Embedding呢？

特征嵌入，将数据转换（降维）为固定大小的特征表示（矢量），以便于处理和计算（如求距离）。例如，针对用于说话者识别的语音信号训练的模型可以允许您将语音片段转换为数字向量，使得来自相同说话者的另一片段与原始向量具有小的距离（例如，欧几里德距离）。

embedding的主要目的是对（稀疏）特征进行降维，它降维的方式可以类比为一个全连接层（没有激活函数），通过 embedding 层的权重矩阵计算来降低维度。

例如，社交媒体数据嵌入（social media data embedding）

Okay, so in deep learning, an embedding generally refers to a continuous, fixed-length vector representation of something that is otherwise difficult to represent (see word embeddings).

Word Embedding呢

JYango博解释很透彻，学习了。https://zhuanlan.zhihu.com/p/27830489

图解Embedding：https://blog.csdn.net/soulmeetliang/article/details/73350844

以上是关于机器学习中的Embedding的主要内容，如果未能解决你的问题，请参考以下文章

如何解决深度推荐系统中的Embedding冷启动问题？

无中生有：论推荐算法中的Embedding思想

使用 ChatterBot 库制作一个聊天机器人

怎样将Embedding融入传统机器学习框架？

用深度学习实现自然语言处理：word embedding，单词向量化

机器学习-NLP之Word embedding 原理及应用