word2vec 算法的意外结果

Posted

技术标签:

【中文标题】word2vec 算法的意外结果【英文标题】:unexpected results with word2vec algorithm 【发布时间】:2018-01-20 19:43:57 【问题描述】:

我在 C++ 中实现了 word2vec。 我发现原始语法不清楚,所以我想我会重新实现它,使用 c++ 的所有优点(std::map、std::vector 等)

这是每次训练样本时实际调用的方法(l1表示第一个词的索引,l2表示第二个词的索引,label表示它是正样本还是负样本,neu1e充当梯度累加器)

void train(int l1, int l2, double label, std::vector<double>& neu1e)

        // Calculate the dot-product between the input words weights (in 
        // syn0) and the output word's weights (in syn1neg).
        auto f = 0.0;

        for (int c = 0; c < m__numberOfFeatures; c++) 
            f += syn0[l1][c] * syn1neg[l2][c];

      // This block does two things:
      //   1. Calculates the output of the network for this training
      //      pair, using the expTable to evaluate the output layer
      //      activation function.
      //   2. Calculate the error at the output, stored in 'g', by
      //      subtracting the network output from the desired output, 
      //      and finally multiply this by the learning rate.
      auto z = 1.0 / (1.0 + exp(-f));
      auto g = m_learningRate * (label - z);

      // Multiply the error by the output layer weights.
      // (I think this is the gradient calculation?)
      // Accumulate these gradients over all of the negative samples.
      for (int c = 0; c < m__numberOfFeatures; c++) 
        neu1e[c] += (g * syn1neg[l2][c]);    

      // Update the output layer weights by multiplying the output error
      // by the hidden layer weights.
      for (int c = 0; c < m__numberOfFeatures; c++) 
        syn1neg[l2][c] += g * syn0[l1][c];         

这个方法被调用

void train(const std::string& s0, const std::string& s1, bool isPositive, std::vector<double>& neu1e)
    
        auto l1 = m_wordIDs.find(s0) != m_wordIDs.end() ? m_wordIDs[s0] : -1;
        auto l2 = m_wordIDs.find(s1) != m_wordIDs.end() ? m_wordIDs[s1] : -1;
        if(l1 == -1 || l2 == -1)
            return;

        train(l1, l2, isPositive ? 1 : 0, neu1e);
    

依次被主要训练方法调用。

完整代码见

https://github.com/jorisschellekens/ml/tree/master/word2vec

完整的例子在

https://github.com/jorisschellekens/ml/blob/master/main/example_8.hpp

当我运行这个算法时,最接近father 的前 10 个单词是:

父亲 汗 沙阿 健忘 迈阿密 皮疹 症状 葬礼 印第安纳波利斯 印象深刻

这是计算最近词的方法:

std::vector<std::string> nearest(const std::string& s, int k) const
    
        // calculate distance
        std::vector<std::tuple<std::string, double>> tmp;
        for(auto &t : m_unigramFrequency)
        
            tmp.push_back(std::make_tuple(t.first, distance(t.first, s)));
        

        // sort
        std::sort(tmp.begin(), tmp.end(), [](const std::tuple<std::string, double>& t0, const std::tuple<std::string, double>& t1)
        
            return std::get<1>(t0) < std::get<1>(t1);
        );

        // take top k
        std::vector<std::string> out;
        for(int i=0; i<k; i++)
        
            out.push_back(std::get<0>(tmp[tmp.size() - 1 - i]));
        

        // return
        return out;
    

这看起来很奇怪。 我的算法有问题吗?

【问题讨论】:

除非有minimal reproducible example,否则我们无能为力。我怀疑有人会通过一些第 3 方代码来查找错误。请提供一个 mcve。 顺便说一句,如果你想要“C++的所有好处”,你应该使用std::inner_product等算法。 您是否与另一个 word2vec 算法进行了比较? @ron 我没有包含所有代码,因为那将在 200 到 300 行之间。我以为'没有人会想读那个' @JorisSchellekens 您的假设是正确的。尝试重新构造问题并提供一段代码,通过minimal reproducible example。 【参考方案1】:

你确定你得到“最近”的词(不是最远的)吗?

        ...
        // take top k
        std::vector<std::string> out;
        for(int i=0; i<k; i++)
        
            out.push_back(std::get<0>(tmp[tmp.size() - 1 - i]));
        
        ...

【讨论】:

我假设距离是余弦相似距离。我创建了单词的元组,距离。然后在元组的第二部分对它们进行排序。 “最近”表示最小距离?您按升序排序。 我更新了代码以显示最近单词的计算。

以上是关于word2vec 算法的意外结果的主要内容,如果未能解决你的问题,请参考以下文章

让你上瘾的网易云音乐推荐算法,用Word2vec就可以实现

NLP之——Word2Vec详解

word2vec算法原理

word2vec算法原理理解

Word2vec ------算法岗面试题

机器学习算法实现解析——word2vec源码解析