ウィンザー化とは?
ウィンザー化は、データのパーセンタイルを使用して、外れ値の影響を減らすためにデータの極端な値を制限するために使用される統計手法です。外れ値は、他の観察値と大きく異なるデータポイントであり、A/Bテストの結果を歪める可能性があります。データをウィンザー化することで、結果がより堅牢で信頼できるものになります。A/Bテストにおけるウィンザー化が重要な理由
A/Bテストでは、どちらがより良いパフォーマンスを発揮するかを判断するために、2つ以上のバリエーションを比較します。外れ値はこれらのバリエーションの真のパフォーマンスを歪め、誤解を招く結論につながる可能性があります。ウィンザー化を適用することで、これらの極端な値の影響を軽減し、より正確で実行可能なインサイトを提供します。 ウィンザー化は次の場合に特に役立ちます:- データにエラーではないものの、他の観察値と大きく異なる極端な値が含まれている。
- より複雑な手法に頼ることなく、外れ値を扱うためのシンプルで効果的な方法を探している。
- データの整合性と外れ値の管理のバランスを効果的に維持する必要がある。
ウィンザー化のリスクとベストプラクティス
ウィンザー化は貴重なツールですが、リスクがないわけではありません:- データ整合性の喪失: 過度のウィンザー化はデータの大幅な変更を引き起こし、重要なバリエーションやパターンを隠す可能性があります。
- 過度の単純化: 外れ値を変更することで、データを過度に単純化する可能性があり、データセットの理解が不完全になる可能性があります。
- バイアスの導入: 不適切なウィンザー化しきい値はバイアスを導入し、結果を歪め、誤った結論につながる可能性があります。平均(5パーセンタイルと95パーセンタイル)の周りで対称性を確保しない場合、平均が変わる可能性があります。
- データを理解する: ウィンザー化を適用する前に、データの性質と分布を徹底的に理解してください。データを理解することで、外れ値を特定するための適切なしきい値を設定できます。
- 適切なしきい値を設定する: 業界標準またはデータ固有のインサイトを使用してウィンザー化のしきい値を設定します。一般的なしきい値には、データの上位および下位0.1%から5%が含まれますが、特定のユースケースに基づいて調整する必要があります。
- 影響を評価する: ウィンザー化を適用した後、データとテスト結果への影響を評価します。重要な情報が失われないようにするために、ウィンザー化されたデータを元のデータと比較します。
- プロセスを文書化する: 選択されたしきい値の根拠とデータへの影響を含む、ウィンザー化プロセスの詳細な記録を保管します。この透明性は再現性と理解に役立ちます。
Kameleoonでウィンザー化を実装する方法
1. カスタムゴールの作成
まず、ウィンザー化を適用したいカスタムゴールを作成する必要があります。2. 制限の設定
次に、外れ値を置き換えるための制限を設定する必要があります。例えば、95%のウィンザー化を使用している場合、2.5パーセンタイルを下回るデータポイントは2.5パーセンタイルの値に設定され、97.5パーセンタイルを上回るデータポイントは97.5パーセンタイルの値に設定されます。 これらの境界はカスタムゴールの詳細設定で確認できます。ウィンザー化手法は、収益が存在する場合に適用されます。
3. 結果を読む
ウィンザー化がゴールに適用されると、このゴールを含む異なる結果ページで調整された結果を読み取ることができます。ゴールコンテナには、このゴールで外れ値が処理されていることを示すバッジが表示されます。バッジにカーソルを合わせると、設定したパラメータが表示されます。
影響の例
2つのランディングページ(AとB)を比較するA/Bテストを考えてみましょう。ウィンザー化がない場合、わずかな高額の外れ値(例: 非常に高額消費するユーザーによる購入)が、典型的なユーザーの行動がこの結論をサポートしていない場合でも、1つのページを大幅に効果的に見せる可能性があります。- 元のデータ(メトリック: ユーザーあたりの収益):
- ページA: [10, 12, 14, 15, 16, 18, 100]
- ページB: [11, 13, 15, 15, 17, 19, 110]
- ウィンザー化されたデータ:
- ページA: [10, 12, 14, 15, 16, 18, 18]
- ページB: [11, 13, 15, 15, 17, 19, 19]
技術的な考慮事項
- このメソッドを初めてカスタムゴールに適用すると、設定したパーセンタイルに対応する値を計算して保存し、結果ページでデータを適合させるために使用します。
- 外れ値をクリップするために使用されるパーセンタイル値は、毎日午前2:00に1回更新されます。ゴール設定でしきい値を変更した場合、これらの値は即座に再評価されます。
- 生データは変更されないことに注意してください。生のエクスポートを要求すれば、生データを引き続き見つけることができます。