A/Bテストに適した統計手法の選び方

はじめに

リスクレベルを制御しながら意思決定することは、A/Bテストの核心です。しかし、「頻度論的」や「ベイズ」のような統計手法は混乱を招くことがあります。この記事は、A/Bテストに適したツールを選択するのに役立ちます。

利用可能な主要パス

A/Bテストの結果を解釈する際には、頻度論的、ベイズ、逐次のアプローチを使用できます。各アプローチには独自の長所と短所があり、異なる方法論を採用しています。

固定サンプル頻度論

固定サンプル頻度論手法は厳格なフレームワークを作成し、テストを開始する前に仮説を明確に概説することを保証します。初期結果に基づいて変更を加えずに作成した制約を守れば、統計的リスクを最適に制御できます。

長所

最大の統計的検出力。
ランダム化比較試験に関する最も普及した手法。

短所

非常に厳格。

対象

手法を厳密に守らない場合のリスクを理解している成熟した実験チーム。

ベイズ

ベイズ手法は、事前確率を通じて既存の知識を分析に組み込むことで、より高い柔軟性を提供します。このアプローチは、事後確率を計算するために十分な事前データがある場合に最適です。

長所

知識を活用できる。
推定分布に基づく主要データへのアクセスを提供する。

短所

事前データが不正確な場合、誤った方向に導く可能性がある。

対象

ベイズ手法を使用することに慣れている実験チーム。この手法は、ベイズ手法と確率分布の理解を持つ上級ユーザー向けです。

逐次

逐次検定は、期待から逸脱する中間結果による実験の早期終了の課題に対処します。従来の固定サンプルサイズテストとは異なり、逐次検定は蓄積されたデータに基づく動的な意思決定を可能にします。この柔軟性により、より早く結論に達する可能性があるという利点がありますが、効果サイズの推定精度が低下する可能性があります。

長所

非常に柔軟で、サンプルサイズの推定が不要。
実験の実行中いつでも有効な信頼区間を提供する。

短所

統計的検出力が低い。

対象

固定サンプルフレームワークの厳格さに圧力を感じ、より高い柔軟性のために統計的検出力を一部犠牲にする準備ができている、迅速に動くチーム。

実験を最適化するには、逐次と固定サンプルサイズの手法を組み合わせることを検討してください。逐次検定を採用することで、重要な結果に基づく早期終了が可能になり、固定サンプルサイズは統計的厳密性を提供します。早期停止のしきい値を設定し、従来の手法で結果を検証することで、信頼性を損なうことなくインサイトを加速できます。

その他のツール

多重検定補正

実験の効率を最大化するために、複数のバリエーションを同時にテストすることを検討してください。このアプローチは、実験全体のペースを加速できます。ただし、統計的整合性を維持するために、偽陽性の結果のリスクを軽減する適切な補正方法を実装してください。

CUPED

CUPEDは、実験で必要なサンプルサイズを削減するための実証済みの方法です。事前実験データを活用することで、CUPEDは統計的検出力を向上させ、実験を加速します。その利点を最大化するために、CUPEDを従来の固定サンプルサイズ手法と組み合わせることを検討してください。このハイブリッドアプローチにより、統計的検出力を維持しながら、重要な結果の早期検出が可能になります。CUPEDは以下の状況で最も効果的です:

実験にリピート訪問者が含まれている。
Kameleoonで多くの実験を実施している
実験開始前と実験中のゴールコンバージョンに相関関係がある。

さらに詳しく

Kameleoonの統計エンジンの仕組みの詳細については、当社の統計ペーパーをお読みください。

​はじめに

​利用可能な主要パス

​固定サンプル頻度論

​長所

​短所

​対象

​ベイズ

​長所

​短所

​対象

​逐次

​長所

​短所

​対象

​その他のツール

​多重検定補正

​CUPED

​さらに詳しく

はじめに

利用可能な主要パス

固定サンプル頻度論

長所

短所

対象

ベイズ

長所

短所

対象

逐次

長所

短所

対象

その他のツール

多重検定補正

CUPED

さらに詳しく