R中的缓存/记忆/散列选项
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R中的缓存/记忆/散列选项相关的知识,希望对你有一定的参考价值。
我试图找到一种简单的方法来使用像R中的Perl的散列函数(基本上是缓存),因为我打算进行Perl风格的散列并编写我自己的计算备忘录。然而,其他人已经打败了我,并有包装备忘。我越挖,越发现,例如memoise
和R.cache
,但差异并不容易。此外,还不清楚除了使用hash
软件包之外,还有什么方法可以获得Perl风格的哈希(或Python风格的字典)并编写自己的memoization,而这似乎并不支持两个memoization软件包。
由于我无法找到有关CRAN或其他地方的信息来区分选项,或许这应该是关于SO的社区维基问题:R中的记忆和缓存有哪些选项,它们的区别是什么?
作为比较的基础,这里是我找到的选项列表。此外,在我看来,所有都依赖于散列,所以我也会注意到散列选项。密钥/值存储在某种程度上是相关的,但是会打开关于数据库系统的大量蠕虫(例如BerkeleyDB,Redis,MemcacheDB和scores of others)。
它看起来像是:
Hashing
- digest - 为任意R对象提供散列。
Memoization
Caching
- hash - 提供类似于Perl的哈希和Python词典的缓存功能。
Key/value storage
这些是R对象外部存储的基本选项。
Checkpointing
- cacher - 这似乎更像是checkpointing。
- CodeDepends - 一个支持
cacher
并提供一些有用功能的OmegaHat项目。 - DMTCP(不是R包) - 似乎支持多种语言的检查点,以及a developer recently sought assistance testing DMTCP checkpointing in R。
Other
- Base R支持:命名向量和列表,数据框的行和列名称以及环境中项目的名称。在我看来,使用列表有点像kludge。 (还有
pairlist
,但是it is deprecated。) - data.table包支持快速查找数据表中的元素。
Use case
虽然我最感兴趣的是了解选项,但我有两个基本用例:
- 缓存:简单计算字符串。 [注意:这不适用于NLP,但一般用途,因此NLP库是过度的;表格不合适,因为我不想等到整个字符串集加载到内存中。 Perl风格的哈希处于适当的实用水平。]
- 记忆怪异的计算。
这些真的出现是因为我是digging in to the profiling of some slooooow code,我真的很想算简单的字符串,看看我是否可以通过memoization加速计算。能够散列输入值,即使我没有记忆,也会让我看看memoization是否有帮助。
注1:CRAN Task View on Reproducible Research列出了几个软件包(cacher
和R.cache
),但没有详细说明使用选项。
注2:为了帮助其他人查找相关代码,这里有一些关于一些作者或包的注释。一些作者使用SO。 :)
- Dirk Eddelbuettel:
digest
- 许多其他包依赖于此。 - Roger Peng:
cacher
,filehash
,stashR
--它们以不同的方式解决不同的问题;请参阅Roger's site获取更多包裹。 - 克里斯托弗·布朗:
hash
- 似乎是一个有用的包,但不幸的是,ODG的链接已经关闭。 - Henrik Bengtsson:
R.cache
和Hadley Wickham:memoise
- 现在还不清楚何时更喜欢一个包装而不是另一个包装。
注3:有些人使用memoize / memoization其他人使用memoize / memoization。如果您正在寻找,请注意。 Henrik使用“z”而Hadley使用“s”。
对于字符串的简单计数(并且不使用table
或类似),multiset数据结构似乎非常合适。 environment
对象可用于模拟此。
# Define the insert function for a multiset
msetInsert <- function(mset, s) {
if (exists(s, mset, inherits=FALSE)) {
mset[[s]] <- mset[[s]] + 1L
} else {
mset[[s]] <- 1L
}
}
# First we generate a bunch of strings
n <- 1e5L # Total number of strings
nus <- 1e3L # Number of unique strings
ustrs <- paste("Str", seq_len(nus))
set.seed(42)
strs <- sample(ustrs, n, replace=TRUE)
# Now we use an environment as our multiset
mset <- new.env(TRUE, emptyenv()) # Ensure hashing is enabled
# ...and insert the strings one by one...
for (s in strs) {
msetInsert(mset, s)
}
# Now we should have nus unique strings in the multiset
identical(nus, length(mset))
# And the names should be correct
identical(sort(ustrs), sort(names(as.list(mset))))
# ...And an example of getting the count for a specific string
mset[["Str 3"]] # "Str 3" instance count (97)
我没有运气与memoise
,因为它给我尝试的打包的一些功能too deep recursive
问题。随着R.cache
我运气好了。以下是我从R.cache
文档改编的更加注释的代码。代码显示了执行缓存的不同选项。
# Workaround to avoid question when loading R.cache library
dir.create(path="~/.Rcache", showWarnings=F)
library("R.cache")
setCacheRootPath(path="./.Rcache") # Create .Rcache at current working dir
# In case we need the cache path, but not used in this example.
cache.root = getCacheRootPath()
simulate <- function(mean, sd) {
# 1. Try to load cached data, if already generated
key <- list(mean, sd)
data <- loadCache(key)
if (!is.null(data)) {
cat("Loaded cached data
")
return(data);
}
# 2. If not available, generate it.
cat("Generating data from scratch...")
data <- rnorm(1000, mean=mean, sd=sd)
Sys.sleep(1) # Emulate slow algorithm
cat("ok
")
saveCache(data, key=key, comment="simulate()")
data;
}
data <- simulate(2.3, 3.0)
data <- simulate(2.3, 3.5)
a = 2.3
b = 3.0
data <- simulate(a, b) # Will load cached data, params are checked by value
# Clean up
file.remove(findCache(key=list(2.3,3.0)))
file.remove(findCache(key=list(2.3,3.5)))
simulate2 <- function(mean, sd) {
data <- rnorm(1000, mean=mean, sd=sd)
Sys.sleep(1) # Emulate slow algorithm
cat("Done generating data from scratch
")
data;
}
# Easy step to memoize a function
# aslo possible to resassign function name.
This would work with any functions from external packages.
mzs <- addMemoization(simulate2)
data <- mzs(2.3, 3.0)
data <- mzs(2.3, 3.5)
data <- mzs(2.3, 3.0) # Will load cached data
# aslo possible to resassign function name.
# but different memoizations of the same
# function will return the same cache result
# if input params are the same
simulate2 <- addMemoization(simulate2)
data <- simulate2(2.3, 3.0)
# If the expression being evaluated depends on
# "input" objects, then these must be be specified
# explicitly as "key" objects.
for (ii in 1:2) {
for (kk in 1:3) {
cat(sprintf("Iteration #%d:
", kk))
res <- evalWithMemoization({
cat("Evaluating expression...")
a <- kk
Sys.sleep(1)
cat("done
")
a
}, key=list(kk=kk))
# expressions inside 'res' are skipped on the repeated run
print(res)
# Sanity checks
stopifnot(a == kk)
# Clean up
rm(a)
} # for (kk ...)
} # for (ii ...)
与@biocyperman solution相关。 R.cache有一个包装函数,用于避免加载,保存和评估缓存。查看修改后的功能:
R.cache提供了一个用于加载,评估和保存的包装器。您可以像这样简化代码:
simulate <- function(mean, sd) {
key <- list(mean, sd)
data <- evalWithMemoization(key = key, expr = {
cat("Generating data from scratch...")
data <- rnorm(1000, mean=mean, sd=sd)
Sys.sleep(1) # Emulate slow algorithm
cat("ok
")
data})
}
以上是关于R中的缓存/记忆/散列选项的主要内容,如果未能解决你的问题,请参考以下文章