참고: 이 글은 원래 영어로 작성된 블로그의 한국어 번역본입니다. 원문은 다음 링크에서 확인하실 수 있습니다: https://statsig.com/blog/stratified-sampling-in-ab-tests
층화 표본추출은 표본을 추출하기 전에 모집단을 더 작고 구별되는 하위 그룹 또는 층으로 분할하는 데 사용되는 기법입니다. 이 방법은 각 하위 그룹이 적절하게 대표되도록 보장하여 전체 모집단의 다양성을 반영하는 더 정확하고 편향되지 않은 표본을 제공하므로 A/B 테스트에서 매우 중요합니다. 실무자에게 이는 사용량이 많은 소규모 사용자 그룹으로 인한 무작위 위양성이 발생할 가능성이 적다는 것을 의미합니다.
A/B 테스트에서 층화 표본추출이 매우 가치 있는 이유는 정밀도와 신뢰성에 미치는 영향으로 귀결됩니다. 층화 표본추출은 실험에서 i.i.d. 가정의 "동일한" 요소를 강제함으로써 위양성률을 줄입니다.
대부분의 실험 플랫폼에서 제공하는 드릴다운과 함께 층화 표본추출을 A/B 테스트 프레임워크에 통합하면, 단순히 실험하는 것이 아니라 사용자 기반의 다양한 세그먼트가 변경 사항에 어떻게 반응하는지 정확하게 이해할 수 있어 더 타겟팅되고 효과적인 최적화가 가능합니다.
A/B 테스트를 설정할 때 올바른 층을 선택하는 것이 첫 번째 단계입니다. 결과에 영향을 미칠 수 있는 요인들을 생각해보세요—연령, 위치, 사용 빈도? 이것들이 바로 여러분의 층입니다.
이러한 중요한 요소들을 정확히 파악하는 방법은 다음과 같습니다:
주요 공변량 식별: 과거 데이터를 살펴보고 테스트하려는 변경 사항과 밀접하게 연관된 인구통계학적 특성이나 행동을 확인합니다.
사용자 분류: 식별된 공변량에 따라 사용자를 그룹화합니다. 이렇게 하면 각 카테고리가 테스트됩니다.
균형을 맞추는 데는 트레이드오프가 있을 것입니다. 일반적으로 실험 단위 수는 적지만 지표 기여도가 큰 그룹이 균형을 맞추는 데 가장 중요합니다.
각각 상위 지표 값의 50%를 기여하는 두 그룹이 있고, 하나는 100,000명의 사용자를 가지고 있고 다른 하나는 10명을 가지고 있다면, 10명의 그룹이 실험 그룹 전체에 불균등하게 분할될 가능성이 훨씬 높습니다. 그 중 8명이 테스트 그룹에, 2명이 대조군에 있다면, 처리 효과가 없어도 85%의 상승률을 보고하게 됩니다! 층화 표본추출은 이러한 일이 발생하는 것을 방지합니다.
이러한 단계를 따르면 통찰력 있고 실행 가능한 결과를 위한 기반 위에 A/B 테스트를 설정하는 것입니다.
층화의 일반적인 방법은 세 가지가 있습니다:
할당 솔루션 내에서. 이는 종종 지금까지의 할당에 대한 층별 카운터를 유지하고 실험이 진행됨에 따라 이를 확인하기 위해 할당률을 조정하여 구현됩니다. 이는 소규모 실험이나 오프라인 실험에는 효과적이지만, 이러한 인덱스와 사용자의 기존 할당을 조회하는 비용과 지연 시간 때문에 확장된 실시간 플랫폼에서는 어려울 수 있습니다. 대부분의 플랫폼은 후속 방문에 대해 데이터베이스 조회를 수행하지 않고도 사용자를 동일한 그룹에 결정론적으로 할당하기 위해 해싱 알고리즘을 사용합니다.
사후 표본추출 또는 CUPED와 같은 도구. 사후에 한 세그먼트에서 "추가 사용자"를 필터링하는 것이 가능합니다. 위의 예에서 2-2 비교의 균형을 맞추기 위해 분석에서 6명의 헤드 사용자를 무작위로 필터링할 수 있습니다. 비용은 일부 중요한 데이터 포인트를 잃는 것입니다.
CUPED는 완벽하게 구현된다면 공변량에 의해 데이터를 기능적으로 층화할 수도 있습니다. 이를 위해서는 층화 공변량의 완벽한 커버리지를 갖도록 회귀를 올바르게 설정하고 알고리즘이 범주형 회귀를 문제없이 처리해야 합니다. 예를 들어, 원-핫 인코딩에서는 저빈도 그룹을 삭제하는 것이 일반적인데, 이것이 바로 여러분이 관심을 갖는 그룹일 수 있습니다!
실험 전 표본추출. 이는 Statsig과 같은 회사에서 균형 잡힌 결과를 제공하는 해싱 알고리즘에 사용할 "솔트"를 식별하는 데 사용하는 기법입니다. 다양한 솔트를 시뮬레이션하고 수정된 카이제곱 기법을 사용하여 층화된 모집단을 생성하는 균형 잡힌 무작위화를 식별할 수 있습니다.
공정한 분할을 보장하기 위해 다른 솔루션 중 하나와 함께 CUPED를 사용하는 것이 권장됩니다. 이러한 방법 중 하나를 올바르게 사용하면 A/B 테스트가 효율적이고 효과적이며 사용자 행동과 선호도에 대한 신뢰할 수 있는 통찰력을 제공할 수 있습니다.