Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/hypothesis-testing-explained
Como científicos de datos, se espera que comprendamos bien las Pruebas de Hipótesis, pero a menudo no es así en la realidad. Esto se debe principalmente a que nuestros libros de texto mezclan dos escuelas de pensamiento —el valor p y las pruebas de significancia vs. las pruebas de hipótesis— de manera inconsistente.
Por ejemplo, algunas preguntas no son obvias a menos que las hayas reflexionado antes:
¿Dependen la potencia o beta de la hipótesis nula?
¿Podemos aceptar la hipótesis nula? ¿Por qué?
¿Cómo cambia el MDE con alfa manteniendo beta constante?
¿Por qué usamos el error estándar en las Pruebas de Hipótesis pero no la desviación estándar?
¿Por qué no podemos ser específicos sobre la hipótesis alternativa para poder modelarla adecuadamente?
¿Por qué el compromiso fundamental de las Pruebas de Hipótesis es entre error vs. descubrimiento, no entre alfa vs. beta?
Abordar este problema no es fácil. El tema de las Pruebas de Hipótesis es complejo. En este artículo, hay 10 conceptos que introduciremos de forma incremental, te ayudaremos con visualizaciones e incluiremos explicaciones intuitivas. Después de este artículo, tendrás respuestas claras a las preguntas anteriores que realmente entiendes a nivel de principios fundamentales y podrás explicar estos conceptos bien a tus partes interesadas.
Dividimos este artículo en cuatro partes.
Plantear la pregunta adecuadamente usando conceptos estadísticos fundamentales, y conectarlos con las Pruebas de Hipótesis, mientras encontramos un equilibrio entre lo técnicamente correcto y la simplicidad. Específicamente,
Enfatizamos una distinción clara entre la desviación estándar y el error estándar, y por qué se usa este último en las Pruebas de Hipótesis
Explicamos completamente cuándo puedes "aceptar" una hipótesis, cuándo debes decir "no rechazar" en lugar de "aceptar", y por qué
Introducir alfa, error tipo I y el valor crítico con la hipótesis nula
Introducir beta, error tipo II y potencia con la hipótesis alternativa
Introducir los efectos mínimos detectables y la relación entre los factores con cálculos de potencia, con un resumen de alto nivel y recomendaciones prácticas
En las Pruebas de Hipótesis, comenzamos con una hipótesis nula, que generalmente afirma que no hay efecto entre nuestros grupos de tratamiento y control. Comúnmente, esto se expresa como que la diferencia de medias entre los grupos de tratamiento y control es cero.
El teorema del límite central sugiere una propiedad importante de esta diferencia de medias: dado un tamaño de muestra suficientemente grande, la distribución subyacente de esta diferencia de medias se aproximará a una distribución normal, independientemente de la distribución original de la población. Hay dos notas:
La distribución de la población para los grupos de tratamiento y control puede variar, pero las medias observadas (cuando observas muchas muestras y calculas muchas medias) siempre se distribuyen normalmente con una muestra lo suficientemente grande. A continuación hay un gráfico, donde n=10 y n=30 corresponden a la distribución subyacente de las medias muestrales.
Presta atención a "la distribución subyacente". La desviación estándar vs. el error estándar es un concepto potencialmente confuso. Aclaremos.
Declaremos nuestra hipótesis nula como que no hay efecto del tratamiento. Entonces, para simplificar, propongamos la siguiente distribución normal con una media de 0 y una desviación estándar de 1 como el rango de posibles resultados con probabilidades asociadas con esta hipótesis nula.
El lenguaje sobre población, muestra, grupo y estimadores puede ser confuso. Nuevamente, para simplificar, olvidemos que la hipótesis nula es sobre el estimador de la media, y declaremos que podemos observar la hipótesis de la media una vez o muchas veces. Cuando la observamos muchas veces, forma una muestra*, y nuestro objetivo es tomar decisiones basadas en esta muestra.
Para los técnicos, la observación es en realidad sobre una sola muestra, muchas muestras son un grupo, y la diferencia en grupos es la distribución de la que estamos hablando como la hipótesis de la media. La curva roja representa la distribución del estimador de esta diferencia, y luego podemos tener otra muestra que consiste en muchas observaciones de este estimador. En mi lenguaje simplificado, la curva roja es la distribución del estimador, y la curva azul con tamaño de muestra son las observaciones repetidas del mismo. Si tienes una mejor manera de expresar estos conceptos sin causar confusiones, por favor sugiérela.
Esta función de densidad de probabilidad significa que si hay una realización de esta distribución, la realización puede estar en cualquier lugar del eje x, con la probabilidad relativa en el eje y.
Si tomamos múltiples observaciones, forman una muestra. Cada observación en esta muestra sigue la propiedad de esta distribución subyacente: es más probable que esté cerca de 0, e igualmente probable que esté en cualquier lado, lo que hace que las probabilidades de positivo y negativo se cancelen entre sí, por lo que la media de esta muestra está aún más centrada alrededor de 0.
Usamos el error estándar para representar el error de nuestra "media muestral".
El error estándar = la desviación estándar de la muestra observada / raíz cuadrada (tamaño de la muestra).
Para un tamaño de muestra de 30, el error estándar es aproximadamente 0.18. Comparado con la distribución subyacente, la distribución de la media muestral es mucho más estrecha.
En las Pruebas de Hipótesis, tratamos de sacar algunas conclusiones: ¿hay un efecto del tratamiento o no? – basándonos en una muestra. Entonces, cuando hablamos de alfa y beta, que son las probabilidades de errores tipo I y tipo II, estamos hablando de las probabilidades basadas en el gráfico de medias muestrales y error estándar.
De la Parte 1, dijimos que una hipótesis nula se expresa comúnmente como que la diferencia de medias entre los grupos de tratamiento y control es cero.
Sin pérdida de generalidad*, supongamos que la distribución subyacente de nuestra hipótesis nula es media 0 y desviación estándar 1
Entonces la media muestral de la hipótesis nula es 0 y el error estándar de 1/√n, donde n es el tamaño de la muestra.
Cuando el tamaño de la muestra es 30, esta distribución tiene un error estándar de ≈0.18 y se ve como lo siguiente.
*: Una nota para los lectores técnicos: La hipótesis nula es sobre la diferencia de medias, pero aquí, sin complicar las cosas, hicimos el cambio sutil de simplemente dibujar la distribución de este "estimador de esta diferencia de medias". Todo lo que sigue habla de este "estimador".
La razón por la que tenemos la hipótesis nula es que queremos hacer juicios, particularmente si existe un efecto del tratamiento. Pero en el mundo de las probabilidades, cualquier observación y cualquier media muestral puede ocurrir, con diferentes probabilidades. Así que necesitamos una regla de decisión para ayudarnos a cuantificar nuestro riesgo de cometer errores.
La regla de decisión es: establezcamos un umbral. Cuando la media muestral está por encima del umbral, rechazamos la hipótesis nula; cuando la media muestral está por debajo del umbral, aceptamos la hipótesis nula.
Vale la pena señalar que es posible que hayas escuchado "nunca aceptamos una hipótesis, solo no logramos rechazar una hipótesis" y estar subconscientemente confundido por ello. La razón profunda es que los libros de texto modernos hacen una mezcla inconsistente de las pruebas de significancia de Fisher y las definiciones de Pruebas de Hipótesis de Neyman-Pearson e ignoran advertencias importantes. Para aclarar:
En primer lugar, nunca podemos "probar" una hipótesis particular dadas las observaciones, porque hay infinitas hipótesis verdaderas (con diferentes probabilidades) dada una observación. Lo visualizaremos en la Parte 3.
En segundo lugar, "aceptar" una hipótesis no significa que creas en ella, sino solo que actúas como si fuera verdadera. Así que técnicamente, no hay problema con "aceptar" una hipótesis.
Pero, en tercer lugar, cuando hablamos de valores p e intervalos de confianza, "aceptar" la hipótesis nula es, en el mejor de los casos, confuso. La razón es que "el valor p por encima del umbral" solo significa que no logramos rechazar la hipótesis nula. En el marco estricto del valor p de Fisher, no hay hipótesis alternativa. Si bien tenemos un criterio claro para rechazar la hipótesis nula (p < alfa), no tenemos un criterio similar claro para "aceptar" la hipótesis nula basado en beta.
Entonces los peligros de llamar "aceptar una hipótesis" en el contexto del valor p son:
Muchas personas malinterpretan "aceptar" la hipótesis nula como "probar" la hipótesis nula, lo cual es incorrecto;
"Aceptar la hipótesis nula" no está rigurosamente definido, y no habla del propósito de la prueba, que es sobre si rechazamos o no la hipótesis nula.
En este artículo, nos mantendremos consistentes dentro del marco de Neyman-Pearson, donde "aceptar" una hipótesis es legal y necesario. De lo contrario, no podemos dibujar ninguna distribución sin actuar como si alguna hipótesis fuera verdadera.
No necesitas conocer el nombre Neyman-Pearson para entender nada, pero presta atención a nuestro lenguaje, ya que elegimos nuestras palabras muy cuidadosamente para evitar errores y confusiones.
Hasta ahora, hemos construido un mundo simple de una hipótesis como la única verdad, y una regla de decisión con dos resultados potenciales: uno de los resultados es "rechazar la hipótesis nula cuando es verdadera" y el otro resultado es "aceptar la hipótesis nula cuando es verdadera". Las probabilidades de ambos resultados provienen de la distribución donde la hipótesis nula es verdadera.
Más adelante, cuando introduzcamos la hipótesis alternativa y el MDE, caminaremos gradualmente hacia el mundo de infinitas hipótesis alternativas y visualizaremos por qué no podemos "probar" una hipótesis.
Guardamos la distinción entre el marco del valor p/significancia vs. las Pruebas de Hipótesis en otro artículo donde tendrás la imagen completa.
Podemos construir una distribución de la media muestral para esta hipótesis nula usando el error estándar. Como solo tenemos la hipótesis nula como la verdad de nuestro universo, solo podemos cometer un tipo de error: rechazar falsamente la hipótesis nula cuando es verdadera. Este es el error tipo I, y la probabilidad se llama alfa. Supongamos que queremos que alfa sea del 5%. Podemos calcular el umbral requerido para que esto suceda. Este umbral se llama valor crítico. A continuación está el gráfico que construimos con nuestra muestra de 30.
En este gráfico, alfa es el área azul bajo la curva. El valor crítico es 0.3. Si nuestra media muestral está por encima de 0.3, rechazamos la hipótesis nula. Tenemos un 5% de probabilidad de cometer el error tipo I.
Para recapitular:
Error tipo I: Rechazar falsamente la hipótesis nula cuando la hipótesis nula es verdadera
Alfa: La probabilidad de cometer un error tipo I
Valor crítico: El umbral para determinar si la hipótesis nula debe ser rechazada o no
Es posible que hayas notado en la parte 2 que solo hablamos del error tipo I: rechazar la hipótesis nula cuando es verdadera. ¿Qué pasa con el error tipo II: aceptar falsamente la hipótesis nula cuando no es verdadera?
Pero es extraño llamar "aceptar" falso a menos que conozcamos la verdad. Así que necesitamos una hipótesis alternativa que sirva como la verdad alternativa.
Hay un concepto importante que la mayoría de los libros de texto no enfatizan: es decir, puedes tener infinitas hipótesis alternativas para una hipótesis nula dada, simplemente elegimos una. Ninguna de ellas es más especial o "real" que las otras.
Visualicémoslo con un ejemplo. Supongamos que observamos una media muestral de 0.51, ¿cuál es la verdadera hipótesis alternativa?
Con esta visualización, puedes ver por qué tenemos "infinitas hipótesis alternativas" porque, dada la observación, hay un número infinito de hipótesis alternativas (más la hipótesis nula) que pueden ser verdaderas, cada una con diferentes probabilidades. Algunas son más probables que otras, pero todas son posibles.
Recuerda, las hipótesis alternativas son una construcción teórica. Elegimos una hipótesis alternativa particular para calcular ciertas probabilidades. A estas alturas, deberíamos tener más comprensión de por qué no podemos "aceptar" la hipótesis nula dada una observación. No podemos probar que la hipótesis nula es verdadera, simplemente no logramos aceptarla dada la observación y nuestra regla de decisión predeterminada.
Reconciliaremos completamente esta idea de elegir una hipótesis alternativa del mundo de infinitas posibilidades cuando hablemos del MDE. La idea de "aceptar" vs. "no rechazar" es más profunda, y no la cubriremos completamente en este artículo. Lo haremos cuando tengamos un artículo sobre el valor p y el intervalo de confianza.
Por simplicidad y fácil comparación, elijamos una hipótesis alternativa con una media de 0.5 y una desviación estándar de 1. Nuevamente, con un tamaño de muestra de 30, el error estándar ≈0.18. Ahora hay dos "verdades" potenciales en nuestro universo simple.
Recuerda de la hipótesis nula, queremos que alfa sea del 5%, por lo que el valor crítico correspondiente es 0.30. Modificamos nuestra regla de la siguiente manera:
Si la observación está por encima de 0.30, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa;
Si la observación está por debajo de 0.30, aceptamos la hipótesis nula y rechazamos la hipótesis alternativa.
Con la introducción de la hipótesis alternativa, la "verdad (hipotética)" alternativa, podemos llamar "aceptar la hipótesis nula y rechazar la hipótesis alternativa" un error: el error tipo II. También podemos calcular la probabilidad de este error. Esto se llama beta, que se ilustra con el área roja a continuación.
De la visualización, podemos ver que beta es condicional a la hipótesis alternativa y al valor crítico. Elaboremos estas dos relaciones una por una, muy explícitamente, ya que ambas son importantes.
Primero, visualicemos cómo cambia beta con la media de la hipótesis alternativa estableciendo otra hipótesis alternativa donde media = 1 en lugar de 0.5
Beta cambia de 13.7% a 0.0%. Es decir, beta es la probabilidad de rechazar falsamente una hipótesis alternativa particular cuando asumimos que es verdadera. Cuando asumimos que una hipótesis alternativa diferente es verdadera, obtenemos un beta diferente. Así que, estrictamente hablando, beta solo habla de la probabilidad de rechazar falsamente una hipótesis alternativa particular cuando es verdadera. Nada más. Es solo bajo otras condiciones que "rechazar la hipótesis alternativa" implica "aceptar" la hipótesis nula o "no aceptar la hipótesis nula". Elaboraremos más cuando hablemos del valor p y el intervalo de confianza en otro artículo. Pero lo que hemos hablado hasta ahora es verdadero y suficiente para entender la potencia.
En segundo lugar, hay una relación entre alfa y beta. Es decir, dadas la hipótesis nula y la hipótesis alternativa, alfa determinaría el valor crítico, y el valor crítico determina beta. Esto habla del compromiso entre error y descubrimiento.
Si toleramos más alfa, tendremos un valor crítico más pequeño, y para el mismo beta, podemos detectar una hipótesis alternativa más pequeña
Si toleramos más beta, también podemos detectar una hipótesis alternativa más pequeña.
En resumen, si toleramos más errores (ya sea tipo I o tipo II), podemos detectar un efecto verdadero más pequeño. Error vs. descubrimiento es el compromiso fundamental de las Pruebas de Hipótesis.
Así que tolerar más errores lleva a más posibilidades de descubrimiento. Este es el concepto de MDE que elaboraremos en la parte 4.
Finalmente, estamos listos para definir la potencia. La potencia es un tema importante y fundamental en las pruebas estadísticas, y explicaremos el concepto de tres maneras diferentes.
Primero, la definición técnica de potencia es 1−β. Representa que dada una hipótesis alternativa y dado nuestro nulo, tamaño de muestra y regla de decisión (alfa = 0.05), la probabilidad es que aceptemos esta hipótesis particular. Visualizamos el área amarilla a continuación.
En segundo lugar, la potencia es realmente intuitiva en su definición. Un ejemplo del mundo real es tratar de determinar el fabricante de automóviles más popular del mundo. Si observo un automóvil y veo una marca, mi observación no es muy poderosa. Pero si observo un millón de automóviles, mi observación es muy poderosa. Las pruebas poderosas significan que tengo una alta probabilidad de detectar un efecto verdadero.
En tercer lugar, para ilustrar los dos conceptos de manera concisa, ejecutemos una visualización simplemente cambiando el tamaño de la muestra de 30 a 100 y veamos cómo la potencia aumenta de 86.3% a casi 100%.
Como muestra el gráfico, podemos ver fácilmente que la potencia aumenta con el tamaño de la muestra. La razón es que la distribución tanto de la hipótesis nula como de la hipótesis alternativa se volvió más estrecha a medida que sus medias muestrales se volvieron más precisas. Es menos probable que cometamos un error tipo I (que reduce el valor crítico) o un error tipo II.
Para recapitular:
Error tipo II: No rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera
Beta: La probabilidad de cometer un error tipo II
Potencia: La capacidad de la prueba para detectar un efecto verdadero cuando está presente
Ahora, estamos listos para abordar la definición más matizada de todas: Efecto mínimo detectable (MDE). Primero, hagamos explícita la media muestral de la hipótesis alternativa en el gráfico con una línea punteada roja.
¿Qué pasa si mantenemos el mismo tamaño de muestra, pero queremos que la potencia sea del 80%? Aquí es cuando recordamos el capítulo anterior de que "las hipótesis alternativas son construcciones teóricas". Podemos tener una alternativa diferente que corresponda al 80% de potencia. Después de algunos cálculos, descubrimos que cuando es la hipótesis alternativa con media = 0.45 (si mantenemos la desviación estándar en 1).
Aquí es donde reconciliamos el concepto de "infinitas hipótesis alternativas" con el concepto de delta mínimo detectable. Recuerda que en las pruebas estadísticas, queremos más potencia. El "mínimo" en el "efecto mínimo detectable", es el valor mínimo de la media de la hipótesis alternativa que nos daría un 80% de potencia. Cualquier hipótesis alternativa con una media a la derecha del MDE nos da suficiente potencia.
En otras palabras, hay de hecho infinitas hipótesis alternativas a la derecha de esta media 0.45. La hipótesis alternativa particular con una media de 0.45 nos da el valor mínimo donde la potencia es suficiente. Lo llamamos el efecto mínimo detectable, o MDE.
Repasemos cómo derivamos el MDE desde el principio:
Fijamos la distribución de las medias muestrales de la hipótesis nula, y fijamos el tamaño de la muestra, para poder dibujar la distribución azul
Para nuestra regla de decisión, requerimos que alfa sea del 5%. Derivamos que el valor crítico debe ser 0.30 para que el 5% de alfa suceda
Fijamos la hipótesis alternativa para que se distribuya normalmente con una desviación estándar de 1, por lo que el error estándar es 0.18, la media puede estar en cualquier lugar ya que hay infinitas hipótesis alternativas
Para nuestra regla de decisión, requerimos que beta sea del 20% o menos, por lo que nuestra potencia es del 80% o más.
Derivamos que el valor mínimo de la media observada de la hipótesis alternativa que podemos detectar con nuestra regla de decisión es 0.45. Cualquier valor por encima de 0.45 nos daría suficiente potencia.
Ahora, unamos todo aumentando el tamaño de la muestra, manteniendo alfa y beta constantes, y veamos cómo cambia el MDE.
Distribución más estrecha de la media muestral + mantener alfa constante -> valor crítico más pequeño de 0.3 a 0.16
mantener beta constante -> MDE disminuye de 0.45 a 0.25
Esta es la otra conclusión clave: Cuanto mayor sea el tamaño de la muestra, menor será el efecto que podemos detectar, y menor será el MDE.
Esta es una conclusión crítica para las pruebas estadísticas. Sugiere que incluso para empresas que no tienen grandes tamaños de muestra, si sus efectos de tratamiento son grandes, las pruebas AB pueden detectarlo de manera confiable.
Revisemos todos los conceptos juntos.
Asumiendo que la hipótesis nula es correcta:
Alfa: Cuando la hipótesis nula es verdadera, la probabilidad de rechazarla
Valor crítico: El umbral para determinar rechazar vs. aceptar la hipótesis nula
Asumiendo que una hipótesis alternativa es correcta:
Beta: Cuando la hipótesis alternativa es verdadera, la probabilidad de rechazarla
Potencia: La probabilidad de que un efecto real produzca resultados significativos
Cálculo de potencia:
Efecto mínimo detectable (MDE): Dados los tamaños de muestra y las distribuciones, la media mínima de la distribución alternativa que nos daría el alfa deseado y suficiente potencia (generalmente alfa = 0.05 y potencia >= 0.8)
Relación entre los factores, todo lo demás igual: Mayor muestra, más potencia; Mayor muestra, menor MDE
Todo lo que hablamos está bajo el marco de Neyman-Pearson. No hay necesidad de mencionar el valor p y la significancia bajo este marco. Mezclar los dos marcos es la inconsistencia traída por nuestros libros de texto. Aclarar la inconsistencia y mezclarlos correctamente son temas para otro día.
Eso es todo. Pero es solo el comienzo. En la práctica, hay muchas técnicas para usar bien la potencia, por ejemplo:
Por qué el espionaje introduce un sesgo de comportamiento, y cómo usar pruebas secuenciales para corregirlo
Por qué tener múltiples comparaciones afecta alfa, y cómo usar la corrección de Bonferroni
¿La relación entre el tamaño de la muestra, la duración del experimento y la asignación del experimento?
Trata tu asignación como un recurso para la experimentación, comprende cuándo los efectos de interacción están bien y cuándo no lo están, y cómo usar capas para administrar
Consideraciones prácticas para establecer un MDE
Recursos relacionados:
Cómo calcular la potencia con una división desigual del tamaño de la muestra: https://blog.statsig.com/calculating-sample-sizes-for-a-b-tests-7854d56c2646
Aplicaciones de la vida real: https://blog.statsig.com/you-dont-need-large-sample-sizes-to-run-a-b-tests-6044823e9992