참고: 이 글은 원래 영어로 작성된 블로그의 한국어 번역본입니다. 원문은 다음 링크에서 확인하실 수 있습니다: https://statsig.com/blog/sequential-testing-on-statsig
최근 저희는 더 빠른 의사결정을 가능하게 하기 위해 Statsig의 순차 검정 방법론을 개선했습니다. 이전 구현과 비교하여, 이 새로운 접근법은 FPR에 대한 엄격한 상한선을 유지하면서도 실험 초기에 더 높은 통계적 검정력을 제공합니다. 이는 초기 회귀 감지나 핵심 지표가 예상보다 큰 효과를 보일 때 실험 기간을 단축하는 데 이상적입니다.
온라인 A/B 테스트를 실행할 때 흔히 우려되는 문제는 "피킹 문제"입니다. 이는 조기 출시 결정을 내리기 위해 실험 지표를 지속적으로 모니터링할 때 발생합니다. 이는 온라인 실험의 두 가지 측면 사이의 긴장에서 비롯됩니다:
심리학이나 약물 테스트와 같은 분야에서 수행되는 A/B 테스트와 달리, 최첨단 온라인 실험 플랫폼은 실시간 데이터 스트림을 사용하여 즉시 결과를 제공할 수 있습니다. 이러한 결과는 데이터 수집이 계속됨에 따라 최신 인사이트를 반영하도록 업데이트될 수 있습니다. 당연히 우리는 이 강력한 기능을 활용하여 가능한 한 빨리 최선의 결정을 내리고자 합니다.
고정 기간 가설 검정에서는 미리 정해진 FPR, 일반적으로 5%(alpha = 0.05)를 허용합니다. p-값이 0.05 미만일 때, 귀무가설을 기각하고 관찰된 효과를 테스트 중인 처리에 기인한 것으로 보는 것이 일반적입니다. 우리는 통계적으로 유의한 결과가 실제로는 단순한 무작위 노이즈일 확률이 5%라는 것을 알면서도 이렇게 합니다.
그러나 유의성을 기다리면서 지속적으로 모니터링하면 5% FPR의 복합 효과가 발생합니다. 20면체 주사위가 있다고 상상해보세요. 한 번 굴리면 1이 나올 확률은 5%(20분의 1)입니다. 하지만 일주일 동안 매일 굴리면 적어도 한 번은 1이 나올 확률은 5%보다 훨씬 높아집니다. 실제로 이제 확률은 30%로 증가했습니다.
순차 검정에서는 지표가 평가되는 횟수에 관계없이 원하는 거짓 양성 상한선을 유지하는 방식으로 신뢰 구간 계산이 변경됩니다.
Statsig의 새로운 순차 검정 방법론은 Zhao 등이 설명한 mSPRT(mixture Probability Sequential Ratio Test) 접근법을 기반으로 합니다. 이는 일반적으로 사용되는 방법론으로, 검정 통계량은 귀무가설과 대립가설의 우도비를 기반으로 합니다.
저희는 시뮬레이션된 분포와 실제 실험 데이터를 모두 사용하여 광범위한 테스트를 수행했으며, 이것이 순차 검정에 대한 원하는 기준을 충족한다는 것을 발견했습니다:
A/A 테스트의 거짓 양성률은 4주 기간 동안 반복 측정에도 불구하고 5% 미만으로 유지됩니다.
실제 효과가 존재할 때, 통계적으로 유의한 결과는 종종 실험의 목표 기간보다 일찍 감지될 수 있습니다.
평가에서 저희는 새로운 mSPRT 방법론을 이전 접근법 및 고정 기간 테스트에서 사용되는 표준 z-검정과 비교했습니다.
저희는 Statsig에서 최근 진행된 560개의 실험을 사용하여 방법의 검정력을 평가했으며, 여기에는 거의 2천 개의 스코어카드 지표가 포함되었습니다. 분석은 다양한 산업의 광범위한 제품 지표(사용 시간, 수익, 구독률, 지연 시간, 전송된 메시지, 리텐션 등)를 다루었습니다. 각 실험에 대해 목표 기간과 스코어카드 지표는 실험 작성자가 설정했습니다.
저희는 목표 기간 종료 시 고정 기간 z-검정을 기반으로 통계적으로 유의한 스코어카드 지표에 초점을 맞췄습니다. 아래 차트는 기간의 함수로서 순차 검정이 통계적으로 유의한 결과를 보여줄 확률을 나타냅니다. 결과가 통계적으로 유의할 때, 이는 순차 검정을 사용하는 경우 실험을 조기에 중단할 수 있음을 의미합니다.
저희의 새로운 방법은 이전 방법에 비해 초기에 통계적으로 유의한 결과를 식별할 확률이 더 높습니다. 이것이 이 업데이트를 출시하는 이유 중 하나입니다: 순차 검정은 결과를 일찍 밝혀내고 실험 기간을 단축할 때 더 많은 가치를 제공합니다.
그러나 실험 종료 시 동일한 수준의 검정력에 도달하지 못한다는 점은 주목할 가치가 있습니다. 이는 FPR에 상한선을 적용할 때 피할 수 없는 트레이드오프입니다. 표준 고정 기간 테스트 대신 순차 검정을 선택할 때 이 점을 염두에 두는 것이 좋습니다.
방법론 | 고정 기간 테스트 대비 검정력 | 목표 기간의 절반에서 조기 중단 확률 |
고정 기간 | 100% | 0% |
Statsig 신규 (mSPRT) | 84% | 58% |
Statsig v1 | 100% | 33% |
FPR을 평가하는 가장 좋은 방법은 중립적인 결과가 예상되는 A/A 테스트입니다. 저희는 다음 매개변수로 1만 개의 시뮬레이션된 A/A 테스트를 수행했습니다:
그룹당 10만 명의 사용자, 14일 동안 등록. 이는 실험 기간 동안 사용자가 점진적으로 실험에 노출되는 일반적인 패턴을 반영합니다.
각 사용자에 대해 두 개의 지표가 생성됩니다. 첫 번째는 표준 정규 분포에서, 두 번째는 평균 1, 표준 편차 0.1의 정규 분포에서 추출됩니다.
결과는 새로운 방법론의 FPR이 5% 미만으로 안전하게 유지됨을 보여줍니다. 예상대로 고정 기간 z-검정은 약 5%이며, 피킹이 있는 z-검정은 상당히 높습니다(20% 이상). 저희의 이전 방법론은 FPR에 대한 상한선을 엄격하게 적용하지 않았으며, 고정 기간 z-검정(5.5%)에 비해 약간 높은 FPR을 보이지만 피킹이 있는 z-검정보다는 훨씬 낮습니다.
방법론 | FPR (표준 정규) | FPR (평균=1, 표준편차=0.1) |
고정 기간 | 5.3% | 4.9% |
Statsig 신규 (mSPRT) | 0.4% | 0.2% |
Statsig 구 방법 | 5.5% | 5.2% |
피킹이 있는 Z-검정 | 20.9% | 21.5% |
또한 Statsig의 기존 데이터를 활용하여 실제 지표로 방법의 FPR을 평가했습니다. 이는 실험에서 보는 지표가 합성 데이터 세트와 다른 분포와 참여율을 가질 수 있기 때문에 중요한 단계입니다.
다양한 규모의 100개 고객사에서 5천 개 이상의 지표를 사용하여 5만 개의 A/A 테스트를 생성했습니다. 테스트는 28일의 기간을 가지며 비율 및 이벤트 수 유형 지표를 모두 평가했습니다. 다시 한 번, 결과는 mSPRT 방법론의 FPR이 일관되게 5% 미만임을 확인합니다.
방법론 | 전체 FPR | 비율 FPR | 이벤트 수 FPR |
고정 기간 | 5.0% | 4.6% | 5.0% |
Statsig 신규 (mSPRT) | 1.1% | 1.1% | 1.2% |
Statsig 구 방법 | 5.7% | 5.4% | 5.7% |
피킹이 있는 Z-검정 | 17.3% | 20.1% | 17.3% |
순차 검정의 최선의 사용은 종종 전통적인 시간 제한 가설 검정과 함께 사용하는 것입니다. 순차 검정은 회귀를 식별하거나 단일 지표를 기반으로 출시 결정을 내리는 데 가장 잘 활용됩니다.
Statsig의 제품 실험은 종종 테스트의 영향에 대한 전체적인 관점을 제공하는 여러 스코어카드 지표를 포함합니다. 이러한 경우 관심 있는 모든 지표에 대한 완전한 통계적 검정력을 위해 고정 기간 테스트를 활용하는 것이 좋습니다. 염두에 둘 몇 가지 아이디어:
"피킹"은 때때로 눈살을 찌푸리게 하지만, 테스트의 조기 모니터링은 실제로 실험 프로그램에서 최대한의 가치를 얻는 데 중요합니다. 실험이 측정 가능한 회귀를 도입하는 경우, 끝까지 기다려서 조치를 취할 이유가 없습니다. 순차 검정을 사용하면 통계적 노이즈와 초기에 유의한 강한 효과를 쉽게 구별할 수 있습니다.
순차 검정의 또 다른 사용 사례는 실험을 전체 기간 동안 실행하는 데 기회 비용이 있을 때입니다. 예를 들어, 사용자에게 개선 사항을 보류하는 것은 상당한 엔지니어링 또는 비즈니스 비용이 있을 수 있으며, 실험을 조기에 종료하면 추가 테스트의 경로를 차단 해제할 수 있습니다.
목표 지표가 초기에 통계적으로 유의한 효과를 보이는 것은 흥미롭습니다. 조기 결정을 내리기 전에 주의할 점: 한 지표가 일찍 유의성에 도달할 수 있지만, 중립적으로 보이는 다른 지표는 여전히 검정력이 부족할 수 있습니다.
관심 있는 모든 지표가 초기에 좋아 보이더라도, 결정을 내리기 전에 최소 7일을 기다리는 것이 종종 권장됩니다. 이는 제품의 최종 사용자가 요일에 따라 다른 행동을 보일 때 많은 지표가 주간 계절성의 영향을 받기 때문입니다.
효과 크기의 좋은 추정치가 중요한 경우 실험을 완료까지 실행하는 것을 고려하세요. 첫째, 순차 검정 조정 신뢰 구간이 더 넓어서 조기 결정을 내릴 때 가능한 값의 범위가 더 큽니다(낮은 정밀도). 또한 실제 효과가 실제로 더 작더라도 측정된 효과가 더 클수록 초기에 통계적으로 유의할 가능성이 더 높습니다.
긍정적인 통계적 유의 결과를 기반으로 일상적으로 조기 결정을 내리면 출시된 실험의 영향을 체계적으로 과대평가할 수 있습니다(낮은 정확도).
순차 검정은 거짓 양성률을 부풀리지 않고 실험 결과를 지속적으로 모니터링할 수 있게 해줍니다.
회귀를 조기에 식별하고 제품에 미치는 영향을 줄이는 강력한 도구입니다. 그러나 고정 기간 테스트에 비해 전반적인 통계적 검정력이 감소합니다. 따라서 실험에 대한 관심 지표가 하나일 때만 조기 출시 결정을 위해 이 방법을 활용하는 것이 좋습니다.