word to vector 文本向量化

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了word to vector 文本向量化相关的知识,希望对你有一定的参考价值。

现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。

文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。


这里有训练好的模型,30种语言非英语,感觉语料不是很好

https://github.com/Kyubyong/wordvectors


这个项目里面有英文预料的,英文有很多语料库例如wordbank google news,wallstreet,都是很好的语聊库。

https://github.com/3Top/word2vec-api


我们当然用我厂自家的模型。


下面是另一片综述的文章。


http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/

https://www.tensorflow.org/tutorials/word2vec

以上是关于word to vector 文本向量化的主要内容,如果未能解决你的问题,请参考以下文章

word2vec概述

向量化文本作为 RNN 的输入

文本向量化(理论篇)

用深度学习实现自然语言处理:word embedding,单词向量化

Spark / Hive / ClickHouse 向量化查询执行原理分析(Vectorization Query Execution)

C++向量化双循环