注記:これは元々英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/cuped
CUPED(Controlled-experiment Using Pre-Experiment Data)は、2013年にMicrosoftが導入して以来、オンライン実験においてますます人気が高まっています。実験プログラムのスピードと精度を向上させる最も強力なアルゴリズムツールの1つです。
実験を実行する際、統計的有意性にわずかに届かない結果を見ることがよくあります。頻度主義のフレームワークでは、これはあなたの変更がユーザー行動の違いを引き起こしたという十分な証拠にはなりません。
実際に効果がある場合、統計的に有意な結果を得る可能性を高めるために、より多くのサンプルサイズが必要です。しかし、サンプルサイズは高価で、通常はより長い実験期間が必要になります。
FacebookやAmazonのような大企業でさえ、実験がユーザーを登録し成熟するのを待たなければなりません。特に小さな効果を探している場合はそうです(Facebookでの収益0.1%の増加は年間1億ドル以上の価値がある可能性があります)。
小規模な企業にとって、十分なデータを収集するのに必要な時間のため、小さな効果サイズを測定することは実現不可能な場合があります。
CUPEDは、実験前のデータを使用して結果データの分散の一部を説明することで、この問題に対処します。
CUPEDの中核概念はシンプルです:実験におけるすべての分散がランダムなわけではありません。ユーザーの結果の多くの違いは、実験とは無関係な既存の要因に基づいています。
重りを付けると人々がより遅く走るかどうかをテストすることを考えてみましょう。実験データのみを見る場合:
人物 | テストグループ | 実験時の1マイルタイム |
サリー | 重りあり | 6:40 |
デイブ | 重りなし | 7:10 |
ジェーン | 重りあり | 8:20 |
ボブ | 重りなし | 9:00 |
1マイルタイムには大きな分散があります。しかし、ベースラインデータを収集したらどうでしょうか?
人物 | グループ | ベースライン1マイルタイム | 実験時の1マイルタイム | 変化 |
サリー | 重りあり | 6:30 | 6:40 | +10 |
デイブ | 重りなし | 7:08 | 7:10 | +2 |
ジェーン | 重りあり | 7:30 | 8:20 | +50 |
ボブ | 重りなし | 9:15 | 9:00 | -15 |
ベースラインからの変化を見ることで、効果がより明確になります。メトリクスの範囲を140秒から65秒に減らし、信頼区間とp値の計算に使用される分散を低下させました。
ランダムな割り当ては、時に異なるベースライン値を持つグループを生じさせることがあります。CUPEDはこのバイアスを補正するのに役立ちます。
あるグループの平均ベースラインが速い場合、彼らの実験結果も速くなります。CUPEDは、速いグループのメトリクスを遅いグループに対して相対的に下方調整します。
一部のCUPEDバリアントは「ノンパラメトリック」または「バケット化」されており、ユーザーは実験前の値に基づいてグループに分割され、メトリクスはそのグループの平均値に対して相対的に測定されます。
より複雑なCUPED実装では、実験グループの割り当てから独立している限り、ターゲットメトリクスの履歴データ以外の情報も組み込むことができます。
過去の行動が将来の行動の完璧な予測因子であるとは限らないため、単純にユーザーの以前の値を実験値から差し引くことはできません。
特定のメトリクスのT検定は、メトリクスが従属変数で、ユーザーの実験グループが独立変数である回帰を実行することと数学的に同等です。
ベースラインデータを回帰の要因として含めると、通常以下のことが見られます:
実験効果の推定値は同様のまま
標準誤差(およびp値)が大幅に減少
統計的に有意でなかった結果が有意になる可能性がある
CUPEDの基本的な実装について:
実験前(X)と実験(Y)データ間の共分散、およびXの分散と平均を計算
式を使用してθ(シータ)を計算:θ = Cov(Y,X)/Var(X)
各ユーザーについて、個別の実験前値を計算
調整されたメトリクスを次のように計算:Y + θ*(Xの母集団平均) - θX
調整されたメトリクスを使用して統計分析を実行
分散の削減は、実験前と実験データ間の相関に直接関連しています。最終的な分散の式は: Var(Ycv) = Var(Y)(1-ρ²)
ここで、ρはXとY間の相関です。
CUPEDは、履歴データが利用可能な既存ユーザーとの実験で最も効果的です
メトリクスデータが実験前データウィンドウより前まで遡ることを確認してください
CUPEDの有効性は、メトリクスが同じユーザーの過去の値とどれだけ相関しているかに依存します
実験前データのない新規ユーザーの場合、層別化または人口統計学的共変量の使用を検討してください
Booking.comがオンライン実験の力をどのように高めるか
実験前データを活用してオンライン制御実験の感度を向上させる
StatsigのCUPED