首頁 » 部落格 » 它是什么以及如何在测试中计算它

它是什么以及如何在测试中计算它

保持更新几年前,我刚开始做拆分测试的时候,觉得每个测试都值得一试。不管是修改按钮颜色还是修改标题,我都想试一下。我曾满怀热情却又误以为,我只需要找到需要优化的方面,设置好测试工具,然后开始测试即可。西班牙电报数据 之后,我以为只需等待那臭名昭著的95% 统计显著性即可。我错了。在实施了“统计显著”的变量后,我的销售额并没有提升,因为没有真正的提升——“这只是假想的”。许多测试在一开始就注定要失败。我犯了一些常见的统计错误,比如没有测试完整的商业周期,或者忽略了效应大小。我也没有考虑到另一种可能性:一次“动力不足”的测试可能会导致我错过产生“真正提升”的变化。解统计功效或测试的“敏感性”是预测试规划的重要组成部分,并将帮助您对站点实施更多创收变更。

目录

  • 什么是统计功效?
  • I 类错误和 II 类错误
    • I 类错误
    • 第二类错误
  • 影响统计功效的变量
    • 1.样本量
    • 2. 最低利益效应(MEI)
    • 3. 统计显著性
    • 4. 所需功率水平
  • 如何计算检验的统计功效
    • 如果无法增加样本量怎么办?
  • 结论

什么是统计功效?

统计功效是指在存在一定量级的真实效应的情况下,在 alpha (α) 水平观察到统计显著结果的概率。它可以帮助您在实际存在差异时检测出测试变量之间的差异。

统计功效是您在转化研究中所付出的辛勤劳动以及合理确定治疗方案与对照方案的优先级后所取得的最高成就。这就是功效如此重要的原因——它能提升您发现和衡量实际存在差异的能力。

统计功效 (1 – β) 与 II 类错误 (β) 呈反比关系。它也是控制假阴性可能性的方法。了解目标网页最重要的 5 个指标 我们希望将 I 类错误的风险降低到可接受的水平,同时保持足够的功效,以便在测试处理确实效果更好的情况下检测到改进。

找到合适的平衡点(稍后会详细介绍)既是一门艺术,也是一门科学。如果某个变量效果更好,那么合适的检验功效就更有可能检测到这种改进。如果检验功效不足,那么无法排除假零假设的风险就会高得令人无法接受。

在深入探讨统计功效的组成部分之前,让我们先回顾一下我们试图解释的错误。  

I 类错误和 II 类错误

I 类错误

I 类错误,或称假阳性,拒绝了一个实际上正确的零假设。你的检验衡量的是变量之间实际上并不存在差异的现象。观察到的差异——测试处理组的表现优于对照组——是虚幻的,是由于偶然事件或错误造成的。

发生 I 类错误的概率,用希腊字母 alpha (α) 表示,是A/B 测试的显著性水平。如果以 95% 的置信水平进行测试,则意味着发生 I 类错误的概率为 5% (1.0 – 0.95 = 0.05)。

如果 5% 太高,你可以通过将置信水平从 95% 提高到 99% 甚至更高来降低假阳性的概率。这反过来又会使你的 alpha 值从 5% 降至 1%。但降低假阳性的概率是有代价的。

随着置信水平的提高,出现假阴性(II 类错误)的风险也会增加。这是因为 alpha 和 beta 之间存在反比关系——降低一个值会导致另一个值升高。

降低 alpha 值(例如从 5% 降至 1%)会降低检验的统计功效。alpha 值越低,临界区域就越小,而临界区域越小,意味着拒绝原假设的概率就越低,因此检验功效也就越低。相反, 如果需要更高的检验功效,可以选择提高 alpha 值(例如从 5% 降至 10%)。

第二类错误

第二类错误,又称假阴性,是指未能拒绝实际上错误的零假设。当你的检验没有发现变异中存在显著的改进时,就会发生第二类错误。

贝塔系数 (β) 是犯第二类错误的概率,与统计功效 (1 – β) 成反比。如果犯第二类错误 (β) 的风险为 20%,则您的统计功效水平为 80% (1.0 – 0.2 = 0.8)。您可以将假阴性风险降低到 10% 或 5%,分别对应统计功效水平 90% 或 95%。

第二类错误由您选择的功效水平控制:功效水平越高,名譽互換 发生第二类错误的概率越低。由于 alpha 和 beta 呈反比关系,因此,在其他条件相同的情况下,运行极低的 alpha(例如 0.001%)将大大增加发生第二类错误的风险。

统计功效是一种平衡行为,需要权衡每个检验的利弊。正如 Paul D. Ellis所说:“一个经过深思熟虑的研究设计,会评估每种错误类型的相对风险,然后在它们之间取得适当的平衡。”

说到统计功效,哪些变量会影响这种平衡?让我们来看看。

影响统计功效的变量

在考虑影响统计功效的每个变量时,请记住:首要目标是控制错误率。你可以利用四个杠杆:

  1. 样本大小
  2. 最小感兴趣效应(MEI,即最小可检测效应)
  3. 显著性水平(α)
  4. 所需功率水平(隐含 II 型错误率)

1.样本量

统计功效中最重要的因素是样本量。拥有足够大的样本量可以确保很多事情都正确。关键在于计算一个样本量,使其能够充分发挥检验的功效,但又不至于大到让检验时间超过必要。(检验时间越长,成本就越高,测试速度也会越慢。)

您需要为每个变体以及要分析的每个细分市场提供足够的访客。 预先规划样本量有助于避免测试动力不足;否则,您可能直到为时已晚才意识到运行了过多的变体或细分市场,导致测试后各组的访客数量过低。

预计在合理的时间内(通常至少一周或一个工作周期)会得到具有统计意义的结果。一般准则是至少运行两周,但不超过四周,以避免因样本污染和 Cookie 删除而导致的问题。

建立最小样本量和预设的时间范围可以避免常见的错误,即简单地运行测试,直到产生统计上显着的差异,然后停止它(偷看)。

2. 最低利益效应(MEI)

最小关注效应(MEI) 是您想要检测的结果差异的大小 (或大小)。

较小的差异更难检测,需要更大的样本量才能保持相同的功效;较小的样本量可以可靠地检测到较大幅度的效应。然而,正如乔治·格奥尔基耶夫(Georgi Georgiev)指出的那样,小样本量带来的那些巨大的“改进”可能并不可靠:

问题在于,通常没有合适的停止规则或固定的样本量,因此报告的名义p值和置信区间(CI)毫无意义。可以说,这些结果在某种意义上是“精心挑选的”。

如果存在合适的停止规则或固定的样本量,那么从非常小的样本量中观察到的500%的改善很可能伴随着95%的置信区间,比如+5%到+995%:信息量并不大。

乔治耶夫 (Georgiev) 的这幅插图是形象化展示功效和效果大小之间关系的一个好方法,他将功效比作渔网:

3. 统计显著性

正如 Georgiev 所解释的那样:

如果在零假设成立的情况下我们不太可能观察到这样的结果,则观察到的测试结果被认为具有统计学意义。

这样,我们就可以从另一个角度进行推理,并说我们有证据反对零假设,因为如果零假设成立(p 值),就不会观察到如此极端的结果或更极端的结果。

这个定义通常可以简化为一种更简单的解释:如果你对两个目标网页的拆分测试有 95% 的置信度支持变化,那么观察到的改进是偶然造成的,这种可能性只有 5%——或者说,差异不是随机造成的,这种可能性有 95%。

“许多人,如果严格理解‘观察到的改进是由随机因素造成的’这一说法,就会对这种说法嗤之以鼻,”格奥尔基耶夫争辩道。“我们需要记住,我们能够估算这些概率,是因为假设零假设成立。”

5% 是在线测试中常见的显著性起始水平,并且如前所述,也是犯 I 类错误的概率。在测试中使用 5% 的 alpha 值意味着你愿意接受 5% 的概率,即你错误地拒绝了零假设。

如果你将 alpha 值从 5% 降低到 1%,假设其他所有条件相同,你同时会增加犯第二类错误的概率。增加第二类错误的概率会降低检验的功效。

4. 所需功率水平

当检验功效为 80% 时,有 20% 的概率无法检测到给定感兴趣量级的实际差异。如果 20% 的风险太大,您可以将这个概率降低到 10%、5% 甚至 1%,从而分别将统计功效提升到 90%、95% 或 99%。

在认为通过以 95% 或 99% 的功效运行测试就能解决所有问题之前,请理解,功效的每次增加都需要相应增加样本量和测试所需运行的时间(您可能会浪费时间运行失败的测试 – 并损失销售额 – 只是为了获得额外的一两个百分点的统计概率)。

那么你真正需要多少功效呢?转化优化中可接受的假阴性风险的常见起点是 20%,这意味着功效水平为 80%。

80% 的功效水平并没有明确的定义,但统计学家雅各布·科恩 (Jacob Cohen)认为,80% 代表了 alpha 风险和 beta 风险之间的合理平衡。换句话说,根据埃利斯 (Ellis) 的说法,“研究犯 II 类错误的概率不应超过 20%。”

归根结底,这是一个问题:

  • 当错过真正的改进时,您愿意承担多大的风险;
  • 为达到所需功率,每个变化所需的最小样本量。

如何计算检验的统计功效

使用样本量计算器G*power,您可以代入您的值,找出运行足够有力的测试所需的值。如果您知道其中三个输入值,就可以计算出第四个。在本例中,使用 G*Power,我们得出结论,每个变体

需要 681 位访客的样本量。这是使用 80% 的功效和 5% 的 alpha(95% 显著性)输入值计算得出的。我们知道对照组的转化率为 14%,并预期变体的转化率为 19%:

同样,如果我们知道每个变量的样本大小、alpha 值和所需的功效水平(比如 80%),我们就能找到实现该功效所需的 MEI——在本例中为 19%:

如果无法增加样本量怎么办?

总有一天,你需要更强大的数据,但增加样本量却行不通。这可能是因为你当前正在运行的测试片段太小,或者某个页面的流量太低。

假设您将参数插入A/B 测试计算器,并且它需要超过 8,000 的样本量:

如果无法达到最低标准(或者需要数月才能达到),一个选择是提高 MEI。在本例中,将 MEI 从 10% 提高到 25% 会将每个变体的样本量减少到 1,356 个:

但是,你多久能达到 25% 的最小误差指数 (MEI)?为了追求巨大的影响,你会错失多少价值?更好的选择通常是将置信水平降低到 90%——只要你能接受 10% 的 I 类错误概率:

那么,该从哪里入手呢?Georgiev 承认,CRO 分析师往往“从样本量开始(测试需要<半任意周数>才能完成),然后随机调整指标,直到输出结果合适为止。”

取得适当的平衡:

  • 需要经过深思熟虑来确定调整哪些杠杆;
  • 通过测量测试变量的任何变化导致的投资回报率 (ROI) 的潜在变化而获得的好处。
返回頂端