为啥使用分配不好?

Posted

技术标签:

【中文标题】为啥使用分配不好?【英文标题】:Why is using assign bad?为什么使用分配不好? 【发布时间】:2013-07-07 17:14:57 【问题描述】:

这篇文章 (Lazy evaluation in R – is assign affected?) 涵盖了一些共同点,但我不确定它是否能回答我的问题。

当我很久以前发现apply 家族时,我停止使用assign,尽管纯粹是出于在这种情况下优雅的原因:

names.foo <- letters
values.foo <- LETTERS
for (i in 1:length(names.foo))
  assign(names.foo[i], paste("This is: ", values.foo[i]))

可以替换为:

foo <- lapply(X=values.foo, FUN=function (k) paste("This is :", k))
names(foo) <- names.foo

这也是这个 (http://cran.r-project.org/doc/FAQ/R-FAQ.html#How-can-I-turn-a-string-into-a-variable_003f) R-faq 说应该避免这种情况的原因。

现在,我知道assign 通常不受欢迎。但是还有其他我不知道的原因吗?我怀疑它可能会影响范围界定或惰性评估,但我不确定?演示此类问题的示例代码会很棒。

【问题讨论】:

【参考方案1】:

实际上这两个操作是完全不同的。第一个给你 26 个不同的对象,而第二个给你一个。第二个对象将更容易在分析中使用。所以我想我会说你已经证明了assign 的主要缺点,即必须始终使用get 来收集或收集所有名称相似的单个对象,这些对象现在在全局中“松散”环境。试着想象一下你将如何对这 26 个独立的对象进行连续的处理。对于第二种策略,一个简单的lapply(foo, func) 就足够了。

FAQ 引用实际上只是说使用分配然后分配名称更容易,但并不意味着它是“坏的”。我碰巧将它读作“功能较少”,因为您实际上并没有返回一个被分配的值。该效果看起来是一种副作用(在这种情况下,assign 策略会产生 26 个单独的副作用)。 assign 的使用似乎被来自具有全局变量的语言的人采用,作为避免采用“真正的 R 方式”的一种方式,即使用数据对象进行函数式编程。他们真的应该学习使用列表,而不是在他们的工作空间中乱扔单独命名的项目。

还有另一种可以使用的赋值范式:

 foo <- setNames(  paste0(letters,1:26),  LETTERS)

这会创建一个命名原子向量而不是命名列表,但对向量中值的访问仍然是使用给[ 的名称完成的。

【讨论】:

+1 -- 在我看来,另一个重要的一点是在编写函数时。一个函数只能返回一个对象,因此列表成为返回多个对象的便捷包装器。如果没有列表,您必须将函数 assign 变量设置为父环境,即有副作用。那将是非常不受欢迎的。 apply 函数的定义中没有循环。一个常见的反应是使用 apply 系列中的一个函数。这不是向量化,而是循环隐藏。 apply 函数在其定义中有一个 for 循环。 “lapply 函数隐藏了循环,但执行时间往往大致等于显式 for 循环。” R-Inferno Circle 4(过度矢量化)-link @MartínBel:R-inferno +1!不过,我并不完全同意。也许,这应该是我从 R inferno 重新访问 Circle 4 后的下一个问题。虽然apply 是循环隐藏的,但lapplyvapply 实际上是R 中的Internal 函数。我猜它们有一些优化。 OTOH、循环隐藏和功能习语可以提高密度和可读性,而且我认为也很好。 没错,他并不完全反对apply函数。他说:当每次迭代都是不平凡的任务时,使用显式的 for 循环。但是使用 apply 函数可以更清晰、更紧凑地表达一个简单的循环。这条规则至少有一个例外。 @MartínBel:有人对 R-Inferno 很彻底! ;)【参考方案2】:

作为fortune(236) 的来源,我想我会添加几个示例(另请参阅fortune(174))。

首先,一个测验。考虑以下代码:

x <- 1
y <- some.function.that.uses.assign(rnorm(100))

运行上面2行代码后,x的值是多少?

assign 函数用于提交“远距离操作”(参见http://en.wikipedia.org/wiki/Action_at_a_distance_(computer_programming) 或谷歌)。这通常是难以找到错误的根源。

我认为assign 的最大问题是它往往会引导人们走上思考的道路,从而使他们远离更好的选择。一个简单的例子是问题中的 2 组代码。 lapply 解决方案更优雅,应该推广,但人们了解assign 函数这一事实将人们引向循环选项。然后他们决定他们需要对循环中创建的每个对象执行相同的操作(如果使用了优雅的解决方案,这将只是另一个简单的lapplysapply)并求助于一个更复杂的循环,同时涉及@ 987654332@ 和 apply 以及对 paste 的丑陋电话。然后那些迷恋assign 的人会尝试做类似的事情:

curname <- paste('myvector[', i, ']')
assign(curname, i)

这并没有达到他们的预期,这导致要么抱怨 R(这就像抱怨我隔壁邻居的房子太远,因为我选择绕着街区走很长的路一样公平)甚至更糟糕的是,深入研究使用evalparse 让他们构造的字符串“工作”(然后导致fortune(106)fortune(181))。

【讨论】:

【参考方案3】:

我想指出,assign 旨在与environments 一起使用。

从这个角度来看,上面示例中的“坏”事情是使用了不太合适的数据结构(基本环境而不是listdata.framevector,...)。

旁注:对于environments,$$&lt;- 运算符也有效,因此在许多情况下,显式的assignget 也不是必需的。

【讨论】:

他们求助于assign 的通常原因是获得一个不适用于$&lt;- 的构造变量名。所以我们还应该注意[[&lt;-“适用”于环境,所以可以这样做:myEnv[[paste0("my", "Var", 1)]] &lt;- value

以上是关于为啥使用分配不好?的主要内容,如果未能解决你的问题,请参考以下文章

bind为啥性能不好

为啥使用 exit() 被认为不好? [复制]

为啥使用有状态的 Web 服务是不好的编程,为啥会被允许?

为啥使用“评估”是一种不好的做法?

为啥尾递归是递归的不好使用?

为啥使用short不好