注記:これは元々英語で公開されたブログの日本語訳です。原文はこちらでご覧いただけます:https://statsig.com/blog/controlling-type-i-errors-bonferroni-benjamini-hochberg
ベンジャミニ・ホックバーグ法が、偽陽性を減らす方法としてStatsigで利用可能になりました。
検定する仮説が多ければ多いほど、基礎となる効果がなくても、偶然に統計的に有意な結果が見られる可能性が高くなります。ボンフェローニ補正とベンジャミニ・ホックバーグ法は、多重比較を行う際にこれらの偽陽性を減らすための異なる手法です。
ベンジャミニ・ホックバーグ法とボンフェローニ補正は、どちらもローンチすべきでない時にローンチしてしまうことを防ぐのに役立ちます。ベンジャミニ・ホックバーグ法は、検定する仮説が多数あり、偽陽性を適度に減らしたい場合に最も有効です。一方、ボンフェローニ補正はより保守的で、同時に検定される仮説の数が少ない場合に最も有用です。
調整なし対ベンジャミニ・ホックバーグ法対ボンフェローニ補正の基本的なトレードオフは、第一種の過誤と第二種の過誤に対するリスク許容度です。
帰無仮説が偽 | 帰無仮説が真 | |
帰無仮説を棄却 | 正しい | 第一種の過誤:誤報 |
帰無仮説を棄却できない | 第二種の過誤:見逃し | 正しい |
第一種の過誤と第二種の過誤のより詳しい説明はこちらをご覧ください。
どちらがより悪いでしょうか?
(第一種の過誤)実際には製品を改善しない不必要な変更を行っている
(第二種の過誤)実験で差を検出できなかったため、製品を改善する機会を逃した
答えは、チームの目標、製品の成熟度、変更の実装と維持に充てることができるリソースによって異なります。
検定したい仮説が多数ある場合、ボンフェローニ補正を使用すると実験の検出力が急速に低下する可能性があります。ベンジャミニ・ホックバーグ法は多重比較に対するペナルティがそれほど厳しくありませんが、その代わりにボンフェローニ補正を使用する場合よりも第一種の過誤を犯す可能性が高くなります。
ボンフェローニ補正はファミリーワイズエラー率(FWER)を制御し、ベンジャミニ・ホックバーグ法は偽発見率(FDR)を制御します。
FWER = いずれかの比較で第一種の過誤を犯す確率
FDR = 棄却した時に帰無仮説が真である確率
コントロールに対する1つのバリアントの各メトリック評価について、次のようになります:
帰無仮説が偽 | 帰無仮説が真 | |
帰無仮説を棄却 | 第一種の過誤:誤報 | |
帰無仮説を棄却できない |
オンライン実験では、通常、1つのメトリックと1つのバリアントだけでなく、より多くのものがあります。例えば:
私たちは一般的に、ボンフェローニ補正よりも厳しくない方法として、しかし依然として第一種の過誤からある程度保護してくれるベンジャミニ・ホックバーグ法を推奨しています。どの方法論を使用することに決めても、実験結果に基づいて出荷した変更の数と、それらの変更が製品にどのような影響を与えたかに基づいて実験プログラムを評価できます(ホールドアウトはこれを行う素晴らしい方法です!)。これにより、偽陽性を防ぐためにより多くまたはより少ない制御が必要かどうかを判断できます。
Statsigの任意の実験の詳細設定で、ボンフェローニ補正またはベンジャミニ・ホックバーグ法を使用するかどうかを選択できます。
ベンジャミニ・ホックバーグ法の設定は、実験設定ページの詳細設定にあり、ボンフェローニ補正設定のすぐ下にあります。
これは組織の実験ポリシーでも設定でき、デフォルトとして有効にするか、使用を必須にすることができます。
ボンフェローニ補正と同様に、Statsigでベンジャミニ・ホックバーグ法を適用する場合、バリアントごと、メトリックごと、または両方に対して方法を適用するかどうかを決定できます。これは、実験者が異なる仮説に対してペナルティを課すことに関して行うべき決定です。
バリアント:補正を使用している場合、通常はバリアントごとにその補正を適用する必要があります。各バリアントは実験対象者に対する異なる処理であり、異なる仮説を表しています。
メトリック:異なるメトリックは、1つの仮説の証拠として使用される場合もあれば、それぞれが異なる仮説を支持するために使用される場合もあります。自分自身に問いかけるべき良い質問:測定されたメトリックのいずれかが正の方向に動いた場合、機能を出荷したいと思いますか?もしそうなら、複数のメトリックに対してαにペナルティを課すことは良いアイデアです。
まず、p値を昇順でソートします。次に、望ましい偽発見率を評価される比較の数で割り、順序付けられたリストでp値が何番目のランクにあるかを掛けたしきい値を計算します。しきい値より小さい最大のp値が新しい有意水準(α)となります。p値がしきい値より小さくない場合は、最小のしきい値となります。
例えば、FDR ≤ 0.05で次のようなソートされた観測p値があった場合:
観測p値 | 可能なしきい値 | p値 < しきい値 | 統計的に有意か? |
0.010 | 0.05/4*1 = 0.0125 | true | はい |
0.031 | 0.05/4*2 = 0.0250 | false | はい |
0.032 | 0.05/4*3 = 0.0375 | true | はい |
0.120 | 0.05/4*4 = 0.0500 | false | いいえ |
これは、調整されたα = 0.0375であることを意味します。
メトリックの数に基づいてベンジャミニ・ホックバーグ法を適用する場合、各バリアントについて他のバリアントとは独立に上記の方法を使用してFDRを制御します。同様に、バリアントの数に基づいてベンジャミニ・ホックバーグ法を適用する場合、各メトリックについて他のメトリックとは独立に上記の方法を使用してFDRを制御します。メトリックとバリアントの数に基づいてベンジャミニ・ホックバーグ法を適用する場合、各メトリックとバリアントのすべてのp値に対して上記の方法を適用することで、実験全体のFDRを制御します。
例えば、次のような観測p値があり、FDR ≤ 0.05で各バリアントのメトリック数に基づいてベンジャミニ・ホックバーグを適用する場合、次の結果が得られます:
バリアント1対コントロール | バリアント2対コントロール | |
メトリック1 | 0.043 | 0.129 |
メトリック2 | 0.049 | 0.074 |
メトリック3 | 0.042 | 0.005 |
メトリック4 | 0.037 | 0.042 |
調整されたα | 0.05 | 0.0125 |
同じ基本データで、FDR ≤ 0.05で各メトリックのバリアント数に基づいてベンジャミニ・ホックバーグを適用すると、次の結果が得られます:
バリアント1対コントロール | バリアント2対コントロール | 調整されたα | |
メトリック1 | 0.043 | 0.129 | 0.025 |
メトリック2 | 0.049 | 0.074 | 0.025 |
メトリック3 | 0.042 | 0.005 | 0.025 |
メトリック4 | 0.037 | 0.042 | 0.05 |
そして、FDR ≤ 0.05でバリアントとメトリックの数に基づいてベンジャミニ・ホックバーグを適用すると、次の結果が得られます:
バリアント1対コントロール | バリアント2対コントロール | |
メトリック1 | 0.043 | 0.129 |
メトリック2 | 0.049 | 0.074 |
メトリック3 | 0.042 | 0.005 |
メトリック4 | 0.037 | 0.042 |
調整されたα = 0.00625