无法让 tm_map 使用 mc.cores 参数
Posted
技术标签:
【中文标题】无法让 tm_map 使用 mc.cores 参数【英文标题】:unable to get tm_map to use mc.cores argument 【发布时间】:2018-01-30 22:01:48 【问题描述】:我有一个包含超过 1000 万个文档的大型语料库。每当我尝试使用 mc.cores 参数对多个核心进行转换时,都会出现错误:
Error in FUN(content(x), ...) : unused argument (mc.cores = 10)
我当前托管的 r 工作室中有 15 个可用内核。
# I have a corpus
> inspect(corpus[1])
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 1
[[1]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 46
> length(corpus)
[1] 10255313
观察当我尝试使用 tm_map 进行转换时会发生什么
library(tidyverse)
library(qdap)
library(stringr)
library(tm)
library(textstem)
library(stringi)
library(SnowballC)
例如
> corpus <- tm_map(corpus, content_transformer(replace_abbreviation), mc.cores = 10)
Error in FUN(content(x), ...) : unused argument (mc.cores = 10)
尝试添加lazy = T
corpus <- tm_map(corpus, content_transformer(replace_abbreviation), mc.cores = 10, lazy = T) # read the documentation, still don't really get what this does
如果我去转型之后
> corpus[[1]][1] I get:
Error in FUN(content(x), ...) : unused argument (mc.cores = 10)
而在我得到之前:
> corpus.beforetransformation[[1]][1]
$content
[1] "here is some text"
我在这里做错了什么?如何使用 mc.cores 参数来使用更多处理器?
可重现的例子:
sometext <- c("cats dogs rabbits", "oranges banannas pears", "summer fall winter") %>%
data.frame(stringsAsFactors = F) %>% DataframeSource %>% VCorpus
corpus.example <- tm_map(sometext, content_transformer(replace_abbreviation), mc.cores = 2, lazy = T)
corpus.example[[1]][1]
【问题讨论】:
一方面,通过...
传递给tm_map
的额外参数被传递给FUN
。所以你的mc.cores
参数被传递给content_transformer(replace_abbreviation)
。我认为您可能需要使用 parallel 包注册一个集群,然后使用tm_parLapply_engine
函数告诉 tm 包使用该集群,但这有点推测。
尝试将 mc.cores 参数移动到 content_transformer 但同样的错误。 RE 注册一个集群……让我觉得奇怪?我最初通过创建集群开始这项任务,然后通过另一个 SO 帖子被告知只使用 mc.cores arg 而不是这样做
有关更多信息,请参阅 tm 包文档的第 14 页。 cran.r-project.org/web/packages/tm/tm.pdf
【参考方案1】:
从tm documentation,尝试以下操作:
options(mc.cores = 10) # or whatever
tm_parLapply_engine(parallel::mclapply) # mclapply gets the number of cores from global options
tm_map(sometext, content_transformer(replace_abbreviation))
【讨论】:
刚刚运行它,我看到所有 te 处理器都在 shell 中亮起。我现在很兴奋!让我们看看结果是否如预期,给它几分钟。那么第二行到底在做什么呢?tm_parLapply_engine
设置 tm 用于并行化的方法。如果你将NULL
传递给它,它只会使用lapply
(没有并行性)。
@DougFir 如果这回答了你的问题,请投票和/或接受它。
@G5W 一旦完成运行并确认我会,我只是在一个大型语料库上运行
感谢您的帮助 @TaylorH,我很难理解 tm 文档,但这让我得到了我需要的东西以上是关于无法让 tm_map 使用 mc.cores 参数的主要内容,如果未能解决你的问题,请参考以下文章
通过 mc.cores 与 makePSOCKcluster 设置内核?
使用 tm_map(..., tolower) 将文本转换为小写时出错