注意:这是一篇最初以英文发表的博客的中文翻译,您可以在这里找到原文:https://statsig.com/blog/how-to-calculate-statistical-significance
你已经运行了A/B测试,结果出来了,接下来该怎么办?
你已经获得了数据,现在需要分析结果。你的目标是:确定A是否与B不同(一个经典的双侧假设检验)。
然而,真实数据是有噪声的,你需要确定观察到的差异是由于真实的潜在差异还是仅仅是统计噪声。计算统计显著性是我们通常采用的方法。
统计显著性是检查你看到的结果是否不是由于随机性造成的,A和B之间是否存在真实差异。这是假设检验中的一个关键概念,它应用统计保护措施来确保你不会基于随机噪声做出决策。
在假设检验中,我们有一对假设,称为原假设和备择假设。原假设很简单:
在双侧检验中:A和B之间没有差异,或者
在单侧检验中:B(测试组)不比A(对照组)好。
备择假设正好相反:A和B之间存在差异,或者B比A好。因为我不想重复我的话,接下来我只会提到双侧检验。
假设检验是我们确定哪个假设正确的方法。
我们想要收集数据,然后确定是否可以拒绝原假设。如果可以,那么我们接受唯一剩下的假设,即备择假设。
我们采用这种迂回方法的原因是,从科学和数学角度来看,对原假设建模并证明某些东西是异常的更容易。对备择假设建模特别具有挑战性,主要是因为不清楚B与A有多大不同(多少?哪个方向?分布是什么样的?)。
有足够证据拒绝原假设的标准称为统计显著性。你的数据要么具有统计显著性,要么没有。它允许我们做出同样二元的决定:我们是否拒绝原假设?
我们还需要熟悉另外两个概念:p值和置信区间。
P值是在假设原假设(A与B相同)正确的情况下,观察到的差异(A和B之间)是由于偶然性造成的概率。一个常见的误解是p值是原假设正确的概率。这是错误的,这个话题在本文之外有广泛的讨论。
然而,低p值确实表明在原假设下观察到的差异不太可能发生。如果p值低于我们预先确定的统计显著性阈值(例如,alpha = 0.05),我们可以拒绝原假设。
这让我们接受备择假设,并得出A和B之间实际上存在差异的结论。
要计算p值,我们需要计算适当的检验统计量,如Z分数或T统计量。这将取决于你的数据类型和样本大小。要检验像"A和B之间没有差异"这样的原假设,我们需要计算A和B之间的观察差异,通常称为delta。
我们还需要知道这种差异的标准误差,以了解其准确性和统计变异性。一种常见的方法是计算A和B的合并标准差,然后推导出标准误差。
有了delta和标准误差,你就能够计算Z分数或T统计量。这些值将映射到相应的p值。
为了确定结果是否具有统计显著性,我们将p值与我们的显著性阈值(即alpha)进行比较。如果p值小于alpha,我们认为结果具有统计显著性。否则,就不具有。
样本大小直接影响测试结果的可靠性。较大的样本通常提供更可靠的数据,减少误差范围。
标准差也影响我们数据的可靠性和精确度。它是数据变异性的度量。较大的变异性意味着更难准确测量A和B。二项式指标(例如转化率)往往具有较低的标准差,在实验中常用。
效应大小是差异的幅度。显著的效应大小确保发现不仅有意义,而且容易检测。
要在假设检验中取得成功,你通常需要具有大效应大小、大样本量和小标准差的场景。