Die richtige statistische Methode für A/B-Tests auswählen

Einführung

Bei A/B-Tests geht es darum, Entscheidungen mit einem kontrollierten Risikoniveau zu treffen. Kameleoon unterstützt drei statistische Ansätze zur Interpretation Ihrer Ergebnisse: Frequentist, Bayesian und Sequential testing. Dieser Leitfaden vergleicht die drei Ansätze, damit Sie den richtigen für die Experimentierziele und die Risikobereitschaft Ihres Teams auswählen können.

Verfügbare Ansätze

Jeder Ansatz hat seine eigenen Vor- und Nachteile und verwendet eine eigenständige Methodik.

Fixed sample Frequentist

Die Fixed sample Frequentist-Methode erfordert, dass Sie Ihre Hypothese und Stichprobengröße vor dem Start eines Tests festlegen. Wenn Sie sich an diesen Plan halten, ohne ihn aufgrund von Zwischenergebnissen zu ändern, erhalten Sie eine optimale Kontrolle über das statistische Risiko.

Vorteile

Bietet maximale statistische Aussagekraft.
Ist die am weitesten verbreitete Methode für randomisierte kontrollierte Studien.

Nachteile

Erfordert eine starre, vorab festgelegte Stichprobengröße und Testdauer.

Am besten geeignet für

Reife Experimentier-Teams, die die Risiken eines Abweichens von der Methode verstehen.

Bayesian

Die Bayesian-Methode bietet mehr Flexibilität, indem sie vorhandenes Wissen über A-priori-Wahrscheinlichkeiten in die Analyse einbezieht. Dieser Ansatz funktioniert am besten, wenn ausreichend Vorabdaten zur Berechnung einer A-posteriori-Wahrscheinlichkeit verfügbar sind.

Vorteile

Ermöglicht es Ihnen, Ihr vorhandenes Wissen zu nutzen.
Verschafft Ihnen Zugriff auf wichtige Daten auf Basis der geschätzten Verteilung.

Nachteile

Kann Sie in die falsche Richtung führen, wenn die Vorabdaten falsch sind.

Am besten geeignet für

Experimentier-Teams, die Erfahrung mit Bayesian-Methoden und Wahrscheinlichkeitsverteilungen haben.

Sequential

Sequential testing löst das Problem der vorzeitigen Beendigung von Experimenten, die durch von den Erwartungen abweichende Zwischenergebnisse verursacht wird. Im Gegensatz zu Tests mit fester Stichprobengröße ermöglicht Sequential testing eine dynamische Entscheidungsfindung, während sich die Daten ansammeln. Diese Flexibilität kann Ihnen helfen, schneller zu Schlussfolgerungen zu gelangen, kann jedoch auch zu einer weniger präzisen Schätzung der Effektgröße führen.

Vorteile

Passt sich an die sich ansammelnden Daten an, ohne dass Sie die Stichprobengröße vorab schätzen müssen.
Bietet zu jedem Zeitpunkt während der Laufzeit des Experiments ein gültiges Konfidenzintervall.

Nachteile

Bietet eine geringere statistische Aussagekraft als Methoden mit fester Stichprobengröße.

Am besten geeignet für

Schnell agierende Teams, die mehr Flexibilität wünschen, als der Rahmen mit fester Stichprobengröße bietet, und dafür bereit sind, etwas statistische Aussagekraft einzutauschen.

Um die Vorteile beider Ansätze zu nutzen, kombinieren Sie Sequential testing mit Methodologien fester Stichprobengröße. Verwenden Sie Sequential testing, um frühzeitig zu stoppen, wenn Ergebnisse signifikant werden, und verwenden Sie feste Stichprobengrößen, um Ihre Erkenntnisse statistisch belastbar zu halten. Das Festlegen von Schwellenwerten für einen vorzeitigen Stopp und die Validierung von Erkenntnissen mit der Methode fester Stichprobengröße ermöglicht es Ihnen, Erkenntnisse zu beschleunigen, ohne die Zuverlässigkeit zu beeinträchtigen.

Ergänzende Techniken

Multiple testing correction

Das gleichzeitige Testen mehrerer Variationen beschleunigt das Gesamttempo des Experimentierens. Um dabei jedoch die statistische Integrität zu wahren, wenden Sie Korrekturmethoden an, die das Risiko falsch positiver Ergebnisse verringern.

CUPED

CUPED reduziert die für ein Experiment erforderliche Stichprobengröße, indem es Daten aus der Zeit vor dem Experiment nutzt, was die statistische Aussagekraft verbessert und das Experimentieren beschleunigt. Kombinieren Sie CUPED mit einer Methodik fester Stichprobengröße, um signifikante Ergebnisse frühzeitig zu erkennen und dabei die statistische Aussagekraft zu erhalten. CUPED funktioniert am besten, wenn:

Ihr Experiment wiederkehrende Besucher einschließt.
Sie viele Experimente in Kameleoon durchgeführt haben.
Die Zielkonversionen vor dem Start des Experiments mit den Konversionen während des laufenden Experiments korrelieren.

Weiterführende Literatur

Weitere Details dazu, wie die Statistik-Engine von Kameleoon funktioniert, finden Sie im Kameleoon Statistical paper.

Startseite

Erste Schritte

Experimentation

Web Personalization

Produkt-Targeting und Social Proofing

Empfehlungen und Merchandising

Experiment-Analytics

KI-Assistent

KI-Möglichkeitserkennung

KI-Predictive Targeting

Assets

Konto- und Teamverwaltung

Projektmanagement

FAQ

Die richtige statistische Methode für A/B-Tests auswählen

Einführung

Verfügbare Ansätze

Fixed sample Frequentist

Vorteile

Nachteile

Am besten geeignet für

Bayesian

Vorteile

Nachteile

Am besten geeignet für

Sequential

Vorteile

Nachteile

Am besten geeignet für

Ergänzende Techniken

Multiple testing correction

CUPED

Weiterführende Literatur

​Einführung

​Verfügbare Ansätze

​Fixed sample Frequentist

​Vorteile

​Nachteile

​Am besten geeignet für

​Bayesian

​Vorteile

​Nachteile

​Am besten geeignet für

​Sequential

​Vorteile

​Nachteile

​Am besten geeignet für

​Ergänzende Techniken

​Multiple testing correction

​CUPED

​Weiterführende Literatur

Einführung

Verfügbare Ansätze

Fixed sample Frequentist

Vorteile

Nachteile

Am besten geeignet für

Bayesian

Vorteile

Nachteile

Am besten geeignet für

Sequential

Vorteile

Nachteile

Am besten geeignet für

Ergänzende Techniken

Multiple testing correction

CUPED

Weiterführende Literatur