为什么text2vec中的LSA每次产生不同的结果?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么text2vec中的LSA每次产生不同的结果?相关的知识,希望对你有一定的参考价值。

我在text2vec包中使用潜在的语义分析来生成单词向量,并且当我注意到奇怪的东西时,使用变换来拟合新数据,当在相同数据上训练时,空间没有排列。

该方法似乎存在一些不一致(或随机性?)。也就是说,即使在完全相同的数据上重新运行LSA模型,所得到的单词向量也会有很大的不同,尽管输入是不确定的。环顾四周时,我发现这些旧封闭的github问题link link以及在更新日志中提到有关LSA被清理的提及。我使用movie_review数据集和文档中的(略微修改过的)代码重现了这种行为:

library(text2vec)
packageVersion("text2vec") # ‘0.5.1’
data("movie_review")
N = 1000
tokens = word_tokenizer(tolower(movie_review$review[1:N]))
it=itoken(tokens)
voc = create_vocabulary(it) %>% prune_vocabulary(term_count_min = 5, doc_proportion_max =0.9)
vectorizer = vocab_vectorizer(voc)
tcm = create_tcm(it, vectorizer)
# edit: make tcm symmetric:
tcm = tcm + Matrix::t(Matrix::triu(tcm)) 
n_topics = 10
lsa_1 = LatentSemanticAnalysis$new(n_topics)
d1 = lsa_1$fit_transform(tcm)
lsa_2 = LatentSemanticAnalysis$new(n_topics)
d2 = lsa_2$fit_transform(tcm)

# despite being trained on the same data, words have completely different vectors:
sim2(d1["film",,drop=F], d2["film",,drop=F])
# yields values like -0.993363 but sometimes 0.9888435 (should be 1)

mean(diag(sim2(d1, d2))) 
# e.g. -0.2316826
hist(diag(sim2(d1, d2)), main="self-similarity between models")
# note: these numbers are different every time!

# But: within each model, results seem consistent and reasonable:
# top similar words for "film":
head(sort(sim2(d1, d1["film",,drop=F])[,1],decreasing = T))
#    film     movie      show     piece territory       bay 
# 1.0000000 0.9873934 0.9803280 0.9732380 0.9680488 0.9668800 

# same in the second model:
head(sort(sim2(d2, d2["film",,drop=F])[,1],decreasing = T))
#      film     movie      show     piece territory       bay 
#  1.0000000 0.9873935 0.9803279 0.9732364 0.9680495 0.9668819

# transform works:
sim2(d2["film",,drop=F], transform(tcm["film",,drop=F], lsa_2 )) # yields 1

# LSA in quanteda doesn't have this problem, same data => same vectors
library(quanteda)
d1q = textmodel_lsa(as.dfm(tcm), 10)
d2q = textmodel_lsa(as.dfm(tcm), 10)
mean(diag(sim2(d1q$docs, d2q$docs)))  # yields 1
# the top synonyms for "film" are also a bit different with quanteda's LSA
#   film     movie      hunk      show territory       bay 
# 1.0000000 0.9770574 0.9675766 0.9642915 0.9577723 0.9573138

什么是交易,这是一个错误,是出于某种原因这个预期的行为,还是我有一个巨大的误解? (我有点希望后者......)。如果是这样的话,为什么quanteda会有不同的表现?

答案

问题是你的矩阵似乎有条件,因此你有数值稳定性问题。

library(text2vec)
library(magrittr)
data("movie_review")
N = 1000
tokens = word_tokenizer(tolower(movie_review$review[1:N]))
it=itoken(tokens)
voc = create_vocabulary(it) %>% prune_vocabulary(term_count_min = 5, doc_proportion_max =0.9)
vectorizer = vocab_vectorizer(voc)
tcm = create_tcm(it, vectorizer)

# condition number
kappa(tcm)
# Inf

现在,如果您将截断SVD(LSA后面的算法),您会注意到奇异向量非常接近于零:

library(irlba)
truncated_svd = irlba(tcm, 10)
str(truncated_svd)
# $ d    : num [1:10] 2139 1444 660 559 425 ...
# $ u    : num [1:4387, 1:10] -1.44e-04 -1.62e-04 -7.77e-05 -8.44e-04 -8.99e-04 ...
# $ v    : num [1:4387, 1:10] 6.98e-20 2.37e-20 4.09e-20 -4.73e-20 6.62e-20 ...
# $ iter : num 3
# $ mprod: num 50

因此嵌入的符号不稳定,它们之间的余弦角也不稳定。

以上是关于为什么text2vec中的LSA每次产生不同的结果?的主要内容,如果未能解决你的问题,请参考以下文章

路由基础之OSPF LSA详细讲解

带有插入符号问题的 Text2Vec 分类

ospf 总共有几种报文?

关于 java中的SecureRandom在linux中每次生成不同结果

OSPF链路状态数据库

OSPF链路状态数据库