词向量chiVe: Japanese Word Embedding with Sudachi & NWJC

Posted 2021-05-21 Harukaze

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了词向量chiVe: Japanese Word Embedding with Sudachi & NWJC相关的知识，希望对你有一定的参考价值。

发现了现成的日文词向量：https://github.com/WorksApplications/chiVe

Abstract

“chiVe”(Sudachi Vector)是一种基于大规模语料库和多粒度标记的日语预训练词嵌入资源。

Based on the skip-gram algorithm, we used word2vec (gensim) to train the vectors.

我们使用日本语言和语言学国家研究所的NINJAL Web日语语料库(NWJC)作为训练语料库，使用Works Applications的Sudachi进行标记化。该语料库包含约1亿网页文本。

We used Sudachi\'s multi-granular tokenziation results (short, mid, and named entity) of NWJC text to train word vectors.我们使用Sudachi的NWJC文本的多粒度标记化结果(短、中、命名实体)来训练单词向量。

We provide data in 3 formats, namely, Text, gensim, and Magitude.

NLP神器--gensim：https://www.jianshu.com/p/9ac0075cc4c0

以上是关于词向量chiVe: Japanese Word Embedding with Sudachi & NWJC的主要内容，如果未能解决你的问题，请参考以下文章

使用word2vec计算词向量之间的相似度

word2vec是如何得到词向量的？

word2vec词向量加权的方法都有哪些？

各种预训练的词向量(Pretrained Word Embeddings)

怎样用word2vec来得到某几个词的向量表示

PyTorch基础——词向量（Word Vector）技术