单尾检验与双尾检验

Tue Jun 24 2025

注意:这是一篇最初以英文发表的博客的中文翻译,您可以在这里找到原文:https://statsig.com/blog/one-tailed-vs-two-tailed-tests

如果您曾经使用过内置的t检验函数(比如R或SciPy中的函数)来分析数据,这里有一个问题要问您:您是否曾经调整过备择假设的默认设置?如果您的答案是否定的——或者您甚至不确定这意味着什么——那么这篇博客就是为您准备的!

备择假设参数,在统计学中通常被称为"单尾"与"双尾",定义了对照组和实验组之间差异的预期方向。

在双尾检验中,我们评估组间平均值是否存在任何差异,而不指定方向。另一方面,单尾检验假设了一个特定的方向——对照组的平均值是小于还是大于实验组的平均值。

选择单尾还是双尾假设可能看起来是一个小细节,但它影响着A/B测试的每个阶段:从测试规划到数据分析和结果解释。本文建立了为什么假设方向很重要的理论基础,并探讨了每种方法的优缺点。

单尾与双尾假设检验:理解差异

要理解选择单尾和双尾假设的重要性,让我们简要回顾一下t检验的基础知识,这是A/B测试中常用的方法。与其他假设检验方法一样,t检验从一个保守的假设开始:两组之间没有差异(零假设)。只有当我们发现强有力的证据反对这个假设时,我们才能拒绝零假设并得出实验产生了效果的结论。

但什么算作"强有力的证据"?为此,在零假设下确定一个拒绝域,所有落在该区域内的结果都被认为是如此不可能,以至于我们将它们作为反对零假设可行性的证据。这个拒绝域的大小基于预先确定的概率,称为alpha(α),它代表错误拒绝零假设的可能性。

这与备择假设的方向有什么关系?实际上关系很大。虽然alpha水平决定了拒绝域的大小,但备择假设决定了它的位置。在单尾检验中,我们假设差异有特定的方向,拒绝域只位于分布的一个尾部。

对于假设的正效应(例如,实验组平均值高于对照组平均值),拒绝域将位于右尾,形成右尾检验。相反,如果我们假设负效应(例如,实验组平均值小于对照组平均值),拒绝域将位于左尾,形成左尾检验。

相比之下,双尾检验允许检测任一方向的差异,因此拒绝域分布在分布的两个尾部。这适应了在任一方向观察到极端值的可能性,无论效应是正的还是负的。

为了建立直觉,让我们可视化不同假设下拒绝域的外观。回想一下,根据零假设,两组之间的差异应该以零为中心。由于中心极限定理,我们也知道这个分布近似于正态分布。因此,对应于不同备择假设的拒绝区域如下所示:

为什么会有差异?

备择假设方向的选择影响整个A/B测试过程,从规划阶段开始——特别是在确定样本量时。

样本量是根据测试的期望功效计算的,功效是当两组之间确实存在差异时检测到真实差异的概率。为了计算功效,我们检查备择假设下对应于拒绝域的区域(因为功效反映了当备择假设为真时拒绝零假设的能力)。

由于假设的方向影响这个拒绝域的大小,双尾假设的功效通常较低。这是因为拒绝域分布在两个尾部,使得在任一方向检测效应更具挑战性。下图说明了两种假设类型之间的比较。

请注意,与双尾假设相比,单尾假设的紫色区域更大:

在实践中,为了保持期望的功效水平,我们通过增加样本量来补偿双尾假设的功效降低(增加样本量会提高功效,尽管其机制可以作为另一篇文章的主题)。因此,选择单尾还是双尾假设直接影响测试所需的样本量。

除了规划阶段,备择假设的选择直接影响结果的分析和解释。有些情况下,测试可能在单尾方法下达到显著性,但在双尾方法下没有,反之亦然。

回顾之前的图表可以帮助说明这一点:例如,左尾的结果在双尾假设下可能是显著的,但在右单尾假设下不是。相反,某些结果可能落在右单尾检验的拒绝域内,但位于双尾检验的拒绝区域之外。

如何在单尾和双尾假设之间做出决定?

让我们从结论开始:这里没有绝对的对错选择。两种方法都是有效的,主要考虑因素应该是您的具体业务需求。为了帮助您决定哪个选项最适合您的公司,我们将概述每种方法的主要优缺点。

乍一看,单尾备择假设可能看起来是明确的选择,因为它通常更符合业务目标。在行业应用中,重点通常是改进特定指标,而不是探索实验在两个方向上的影响。

这在A/B测试中尤其相关,其目标通常是优化转化率或提高收入。如果实验没有带来显著的改进,所检查的更改将不会被实施。

除了这个概念上的优势,我们已经提到了单尾假设的一个关键好处:它需要更小的样本量。因此,选择单尾备择假设可以节省时间和资源。为了说明这一优势,下图显示了不同功效水平下单尾和双尾假设所需的样本量(alpha设置为5%)。

在这种情况下,单尾和双尾假设之间的决定在序贯检验中变得特别重要——这是一种允许持续数据分析而不增加alpha水平的方法。在这里,选择单尾检验可以显著减少测试的持续时间,实现更快的决策,这在需要及时响应的动态业务环境中特别有价值。

然而,不要太快否定双尾假设!它有自己的优势。在某些业务环境中,检测"负显著结果"的能力是一个主要优势。正如一位客户曾经分享的,他更喜欢负显著结果而不是不确定的结果,因为它们提供了宝贵的学习机会。即使结果不如预期,他也可以得出实验产生了负面影响的结论,并获得对产品的洞察。

双尾检验的另一个好处是使用置信区间(CI)进行直接解释。在双尾检验中,不包含零的CI直接表示显著性,使从业者更容易一目了然地解释结果。这种清晰度特别吸引人,因为CI在A/B测试平台中被广泛使用。相反,对于单尾检验,显著结果可能仍然在CI中包含零,可能导致对发现的困惑或不信任。尽管单侧置信区间可以与单尾检验一起使用,但这种做法不太常见。

要点

通过调整单个参数,您可以显著影响您的A/B测试:特别是您需要收集的样本量和结果的解释。在决定单尾和双尾假设时,考虑诸如可用样本量、检测负面效应的优势以及将置信区间(CI)与假设检验对齐的便利性等因素。最终,这个决定应该经过深思熟虑,考虑什么最适合您的业务需求。



Please select at least one blog to continue.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy