机器学习算法实现解析——word2vec源码解析

Posted 2020-09-05 zhiyong_will

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习算法实现解析——word2vec源码解析相关的知识，希望对你有一定的参考价值。

在阅读本文之前，建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”（目前还没发布），掌握如下的几个概念：

有了如上的一些概念，接下来就可以去读word2vec的源码。在源码的解析过程中，对于基础知识部分只会做简单的介绍，而不会做太多的推导，原理部分会给出相应的参考地址。

在wrod2vec工具中，有如下的几个比较重要的概念：

其中CBOW和Skip-Gram是word2vec工具中使用到的两种不同的语言模型，而Hierarchical Softmax和Negative Sampling是对以上的两种模型的具体的优化方法。

在word2vec工具中，主要的工作包括：

对于以上的过程，可以由下图表示：

这里写图片描述

在接下来的内容中，将针对以上的五个部分，详细分析下在源代码中的实现技巧，以及简单介绍我在读代码的过程中对部分代码的一些思考。

1、预处理

在预处理部分，对word2vec需要使用的参数进行初始化，在word2vec中是利用传入的方式对参数进行初始化的。

在预处理部分，实现了sigmoid函数值的近似计算。在利用神经网络模型对样本进行预测的过程中，需要对其进行预测，此时，需要使用到sigmoid函数，sigmoid函数的具体形式为：

σ (x) = 1 1 + e - x = e x 1 + e x 以上是关于机器学习算法实现解析——word2vec源码解析的主要内容，如果未能解决你的问题，请参考以下文章