gensim.models.word2vec() 参数详解

Posted 2021-12-15 K同学啊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了gensim.models.word2vec() 参数详解相关的知识，希望对你有一定的参考价值。

函数原型

gensim.models.word2vec.Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5,
              max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5,
              ns_exponent=0.75, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, 
              sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), max_final_vocab=None)

参数介绍

sentences (iterable of iterables, optional)：供训练的句子，可以使用简单的列表，但是对于大语料库，建议直接从磁盘/- - **网络流迭代传输句子。参阅word2vec模块中的BrownCorpus，Text8Corpus或LineSentence。
corpus_file (str, optional)：LineSentence格式的语料库文件路径。
size (int, optional)：word向量的维度。
window (int, optional)：一个句子中当前单词和被预测单词的最大距离。
min_count (int, optional) ：忽略词频小于此值的单词。
workers (int, optional)：训练模型时使用的线程数。
sg (0, 1, optional)：模型的训练算法: 1: skip-gram; 0: CBOW.
hs (0, 1, optional)： 1: 采用hierarchical softmax训练模型; 0: 使用负采样。
negative (int, optional)： 0: 使用负采样，设置多个负采样(通常在5-20之间)。
ns_exponent (float, optional)：负采样分布指数。1.0样本值与频率成正比，0.0样本所有单词均等，负值更多地采样低频词。
cbow_mean (0, 1, optional)： 0: 使用上下文单词向量的总和; 1: 使用均值，适用于使用CBOW。
alpha (float, optional)：初始学习率。
min_alpha (float, optional)：随着训练的进行，学习率线性下降到min_alpha。
seed (int, optional)：随机数发生器种子。
max_vocab_size (int, optional)：词汇构建期间RAM的限制; 如果有更多的独特单词，则修剪不常见的单词。每1000万个类型的字需要大约1GB的RAM。
max_final_vocab (int, optional)：自动选择匹配的min_count将词汇限制为目标词汇大小。
sample (float, optional)：高频词随机下采样的配置阈值，范围是(0,1e-5)。
hashfxn (function, optional)：哈希函数用于随机初始化权重，以提高训练的可重复性。
iter (int, optional)：迭代次数。
trim_rule (function, optional)：词汇修剪规则，指定某些词语是否应保留在词汇表中，修剪掉或使用默认值处理。
sorted_vocab (0, 1, optional)：如果为1，则在分配单词索引前按降序对词汇表进行排序。
batch_words (int, optional)：每一个batch传递给线程单词的数量。
compute_loss (bool, optional)：如果为True，则计算并存储可使用get_latest_training_loss()检索的损失值。
callbacks (iterable of CallbackAny2Vec, optional)：在训练中特定阶段执行回调序列。

以上是关于gensim.models.word2vec() 参数详解的主要内容，如果未能解决你的问题，请参考以下文章

gensim.models.word2vec() 参数详解

[Pytorch系列-57]：循环神经网络 - gensim.models.word2vec参数详解与构建词向量模型

PythonAttributeError: Can‘t get attribute ‘Vocab‘ on ＜module ‘gensim.models.word2vec‘ from