Note : Ceci est une traduction française d'un article de blog initialement publié en anglais, que vous pouvez trouver ici : https://statsig.com/blog/sequential-testing-on-statsig
Nous avons récemment remanié la méthodologie de tests séquentiels de Statsig pour permettre des décisions plus rapides. Par rapport à notre implémentation précédente, cette nouvelle approche offre une puissance statistique plus élevée durant les premiers jours de l'expérience tout en appliquant une limite stricte sur le TFP. C'est idéal pour la détection précoce de régressions ou pour raccourcir la durée d'une expérience lorsque la métrique clé présente un effet plus important que prévu.
Une préoccupation courante lors de l'exécution de tests A/B en ligne est le « problème du coup d'œil ». Celui-ci survient lorsque les métriques d'expérience sont surveillées en continu dans l'intention de prendre des décisions de déploiement anticipées. Cela découle d'une tension entre deux aspects de l'expérimentation en ligne :
Contrairement aux tests A/B menés dans des domaines comme la psychologie et les tests pharmaceutiques, les plateformes d'expérimentation en ligne de pointe utilisent des flux de données en direct et peuvent faire apparaître des résultats immédiatement. Ces résultats peuvent ensuite être mis à jour pour refléter les informations les plus récentes à mesure que la collecte de données se poursuit. Naturellement, nous voulons exploiter cette capacité puissante pour prendre les meilleures décisions le plus tôt possible.
Dans les tests d'hypothèses à horizon fixe, nous acceptons un TFP prédéterminé, généralement 5 % (alpha = 0,05). Lorsque la valeur p est inférieure à 0,05, il est courant de rejeter l'hypothèse nulle et d'attribuer l'effet observé au traitement que nous testons. Nous le faisons en sachant qu'il y a 5 % de chances qu'un résultat statistiquement significatif ne soit en réalité que du bruit aléatoire.
Cependant, la surveillance continue en attendant la significativité conduit à un effet cumulatif du TFP de 5 %. Imaginez que vous ayez un dé à 20 faces. Si vous le lancez une fois, vous aurez 5 % de chances (1 sur 20) d'obtenir un 1. Mais si vous le lancez tous les jours pendant une semaine, la probabilité d'obtenir au moins une fois un 1 est bien supérieure à 5 %. En fait, vous avez maintenant augmenté vos chances à 30 %.
Dans les tests séquentiels, le calcul de l'intervalle de confiance change de manière à maintenir la limite supérieure souhaitée sur les faux positifs, quel que soit le nombre de fois où la métrique est évaluée.
La nouvelle méthodologie de tests séquentiels de Statsig est basée sur l'approche mSPRT (mixture Probability Sequential Ratio Test) décrite par Zhao et al. Il s'agit d'une méthodologie couramment utilisée, où la statistique de test est basée sur le rapport de vraisemblance des hypothèses nulle et alternative.
Nous avons effectué des tests approfondis, à la fois avec des distributions simulées et des données d'expériences réelles, et avons constaté que cela répond aux critères souhaités pour les tests séquentiels :
Le taux de faux positifs dans les tests A/A reste inférieur à 5 % même avec des mesures répétées sur une période de 4 semaines.
Lorsqu'un effet réel existe, des résultats statistiquement significatifs peuvent souvent être détectés plus tôt que la durée cible de l'expérience.
Dans notre évaluation, nous avons comparé la nouvelle méthodologie mSPRT avec notre approche précédente, ainsi qu'avec le test z standard utilisé dans les tests à horizon fixe.
Nous avons évalué la puissance de notre méthode en utilisant un corpus de 560 expériences récentes sur Statsig, qui comprenait près de 2 000 métriques de tableau de bord. L'analyse a couvert un large éventail de métriques produit de diverses industries (temps passé, revenus, taux d'abonnement, latence, messages envoyés, rétention, etc.). Pour chaque expérience, la durée cible et les métriques du tableau de bord ont été définies par le créateur de l'expérience.
Nous nous sommes concentrés sur les métriques du tableau de bord qui étaient statistiquement significatives selon le test z à horizon fixe à la fin de la durée cible. Le graphique ci-dessous montre la probabilité que les tests séquentiels montrent un résultat statistiquement significatif en fonction de la durée. Lorsque le résultat est statistiquement significatif, cela signifie que l'expérience pourrait être arrêtée plus tôt si l'on utilise les tests séquentiels.
Notre nouvelle méthode a une probabilité plus élevée d'identifier des résultats statistiquement significatifs tôt par rapport à la précédente. C'est l'une des raisons de cette mise à jour : les tests séquentiels offrent plus de valeur lorsqu'ils révèlent des résultats tôt et raccourcissent la durée de l'expérience.
Il convient de noter, cependant, que nous n'atteignons pas le même niveau de puissance à la fin de l'expérience. C'est un compromis auquel nous ne pouvons échapper lorsque nous appliquons un plafond sur le TFP. Il vaut la peine de garder cela à l'esprit lorsque vous optez pour les tests séquentiels plutôt qu'un test standard à horizon fixe.
Méthodologie | Puissance relative au test à horizon fixe | Probabilité d'arrêt précoce à la moitié de la durée cible |
Horizon fixe | 100 % | 0 % |
Statsig nouveau (mSPRT) | 84 % | 58 % |
Statsig v1 | 100 % | 33 % |
La meilleure façon d'évaluer le TFP est avec des tests A/A qui devraient avoir des résultats neutres. Nous avons effectué 10 000 tests A/A simulés avec les paramètres suivants :
100 000 utilisateurs par groupe, inscrits sur une période de 14 jours. Cela reflète le modèle courant d'utilisateurs progressivement exposés à une expérience au cours de sa durée.
Deux métriques sont générées pour chaque utilisateur. La première est tirée d'une distribution normale standard, la seconde d'une distribution normale avec une moyenne de 1 et un écart-type de 0,1
Les résultats montrent que le TFP pour la nouvelle méthodologie est largement inférieur à 5 %. Comme prévu, le test z à horizon fixe est d'environ 5 %, tandis que le test z avec coup d'œil est significativement plus élevé (plus de 20 %). Notre méthodologie précédente n'appliquait pas strictement un plafond sur le TFP, et elle montre un TFP légèrement plus élevé par rapport au test z à horizon fixe (5,5 %), mais toujours bien inférieur au test z avec coup d'œil.
Méthodologie | TFP (normale standard) | TFP (moyenne=1, écart-type=0,1) |
Horizon fixe | 5,3 % | 4,9 % |
Statsig nouveau (mSPRT) | 0,4 % | 0,2 % |
Statsig ancienne méthode | 5,5 % | 5,2 % |
Test z avec coup d'œil | 20,9 % | 21,5 % |
Nous avons également exploité les données existantes sur Statsig pour évaluer le TFP de notre méthode avec des métriques du monde réel. C'est une étape importante car les métriques que nous voyons dans les expériences peuvent avoir des distributions et des taux de participation différents des ensembles de données synthétiques.
Nous avons généré 50 000 tests A/A en utilisant plus de 5 000 métriques de 100 clients différents de tailles diverses. Les tests avaient une durée de 28 jours et évaluaient à la fois des métriques de type ratio et de comptage d'événements. Encore une fois, nos résultats confirment que le TFP pour notre méthodologie mSPRT est constamment inférieur à 5 %.
Méthodologie | TFP global | TFP ratio | TFP comptage d'événements |
Horizon fixe | 5,0 % | 4,6 % | 5,0 % |
Statsig nouveau (mSPRT) | 1,1 % | 1,1 % | 1,2 % |
Statsig ancienne méthode | 5,7 % | 5,4 % | 5,7 % |
Test z avec coup d'œil | 17,3 % | 20,1 % | 17,3 % |
La meilleure utilisation des tests séquentiels se fait souvent en combinaison avec les tests d'hypothèses traditionnels limités dans le temps. Les tests séquentiels sont mieux exploités pour identifier les régressions ou prendre des décisions de déploiement basées sur une seule métrique.
L'expérimentation produit sur Statsig implique souvent plusieurs métriques de tableau de bord qui fournissent une vue holistique de l'impact du test. Dans ces cas, il est conseillé d'utiliser des tests à horizon fixe pour une puissance statistique complète sur toutes les métriques d'intérêt. Quelques idées à garder à l'esprit :
Bien que « jeter un coup d'œil » soit parfois mal vu, la surveillance précoce des tests est en réalité essentielle pour tirer le maximum de valeur d'un programme d'expérimentation. Si une expérience introduit une régression mesurable, il n'y a aucune raison d'attendre la fin pour agir. Avec les tests séquentiels, nous pouvons facilement distinguer le bruit statistique des effets forts qui sont significatifs tôt.
Un autre cas d'utilisation pour les tests séquentiels est lorsqu'il y a un coût d'opportunité à exécuter l'expérience pendant toute sa durée. Par exemple, retenir une amélioration aux utilisateurs peut avoir un coût d'ingénierie ou commercial important, ou terminer une expérience plus tôt peut débloquer la voie pour d'autres tests.
Il est excitant de voir une métrique objectif avec un effet statistiquement significatif tôt. Un mot de prudence avant de prendre une décision précoce : bien qu'une métrique puisse atteindre la significativité tôt, d'autres métriques qui semblent neutres peuvent encore être sous-alimentées.
Même lorsque toutes les métriques d'intérêt semblent excellentes tôt, il est souvent conseillé d'attendre au moins 7 jours complets avant de prendre une décision. C'est parce que de nombreuses métriques sont impactées par la saisonnalité hebdomadaire lorsque les utilisateurs finaux d'un produit ont des comportements différents selon le jour de la semaine.
Si une bonne estimation de la taille de l'effet est importante, envisagez d'exécuter l'expérience jusqu'à son terme. D'une part, les intervalles de confiance ajustés des tests séquentiels sont plus larges, donc la plage de valeurs probables est plus grande lors de la prise d'une décision précoce (précision inférieure). De plus, un effet mesuré plus important est plus susceptible d'être statistiquement significatif tôt, même si l'effet réel est en fait plus petit.
Prendre régulièrement des décisions précoces basées sur des résultats statistiquement significatifs positifs pourrait conduire à surestimer systématiquement l'impact des expériences lancées (précision inférieure).
Les tests séquentiels permettent une surveillance continue des résultats d'expérience sans gonfler le taux de faux positifs.
C'est un outil puissant pour identifier les régressions tôt et réduire leur impact sur le produit. Cela dit, ils s'accompagnent d'une réduction globale de la puissance statistique par rapport aux tests à horizon fixe. Ainsi, nous recommandons d'utiliser cette méthode pour les décisions de déploiement précoce uniquement lorsqu'il y a une seule métrique d'intérêt pour l'expérience.