在 n > 2 的情况下,评估 n 向拆分测试最有说服力的方法是啥?

Posted

技术标签:

【中文标题】在 n > 2 的情况下,评估 n 向拆分测试最有说服力的方法是啥?【英文标题】:What is the most conclusive way to evaluate an n-way split test where n > 2?在 n > 2 的情况下,评估 n 向拆分测试最有说服力的方法是什么? 【发布时间】:2021-08-18 06:29:12 【问题描述】:

我在设计、运行和评估双向拆分测试(A/B 测试)方面拥有丰富的经验。这些是迄今为止我从事大部分工作的数字营销中最常见的。

但是,我想知道当实验中引入更多变体(例如,创建 3 路测试(A/B/C 测试))时,是否需要更改有关方法的任何内容。

我的直觉告诉我,我应该只对对照组进行 n-1 次评估。

例如,如果我进行 3 路拆分测试,直觉告诉我应该两次找到意义和力量:

    治疗 A 与对照组 治疗 B 与对照组

因此,在这种情况下,我正在找出哪种治疗(如果有的话)比对照表现更好(1 尾检验,替代:治疗 - 对照 > 0,基本营销假设)。

但是,我怀疑我的直觉。我突然想到,运行第三次测试对比治疗 A 和治疗 B 可能会产生令人困惑的结果。

例如,如果没有足够的证据来拒绝治疗 B = 治疗 A 的空值怎么办?

这会导致这样一个愚蠢的结论:

    治疗 A = 对照

    治疗 B > 对照

    治疗 B = 治疗 A

如果处理 A 和 B 可能只是由于随机机会而不同,那么它们怎么可能只有一个优于对照组?

这让我想知道是否有一种在统计上更合理的方法来评估具有多个治疗变量的拆分测试。有吗?

【问题讨论】:

ANOVA 浮现在脑海中,但Cross Validated 在这方面的表现比我们在 SO 上要好得多:)。 【参考方案1】:

你的直觉是正确的,通过重新措辞你可以减少愚蠢的感觉:

    我们发现治疗 A 和对照组之间没有统计学上的显着差异。 治疗 B 明显优于对照组。 但是,治疗 B 是否优于治疗 A 尚无定论。

这足以宣布治疗 B 为赢家,并可能跟进重新测试 A 与 B。但根据您的具体情况,您可能有业务需要在移动之前实际确保治疗 B 优于治疗 A转发,您无法对您的数据做出此类决定。您必须收集更多数据和/或重新开始新的测试。

我发现一个更常见的情况是治疗 A 和治疗 B 都很好地击败了控制(因为它们通常密切相关并且有相关的假设),但治疗 A 或治疗之间没有统计学上的显着差异B. 这是一个有趣的场景,如果你需要选择一个赢家,可以把意义抛到窗外,选择影响最强的那个。原因是设置显着性水平(例如 95%)是为了避免误报和进行不必要的更改。假设存在转换成本。在这种情况下,您必须选择 A 或 B 并放弃控制,所以在我看来,在获得更多数据之前选择最好的是可以的。

【讨论】:

以上是关于在 n > 2 的情况下,评估 n 向拆分测试最有说服力的方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

打印正整数n拆分的所有情况

343. 整数拆分

如何在不折叠空格的情况下在 bash 脚本中拆分制表符分隔的字符串?

二进制拆分+贪心——cf1303D

如何在python中拆分整数输入?

整数拆分