Qu’est-ce que la winsorisation ?
La winsorisation est une technique statistique utilisée pour limiter les valeurs extrêmes des données afin de réduire l’impact des valeurs aberrantes en utilisant les percentiles de vos données. Les valeurs aberrantes sont des points de données qui diffèrent significativement des autres observations et qui peuvent fausser les résultats de vos A/B tests. En winsorisant vos données, vous garantissez que vos résultats sont plus robustes et fiables.Pourquoi la winsorisation est importante dans les A/B tests
Dans les A/B tests, nous comparons deux ou plusieurs variations afin de déterminer laquelle est la plus performante. Les valeurs aberrantes peuvent fausser la performance réelle de ces variations et conduire à des conclusions trompeuses. En appliquant la winsorisation, nous atténuons l’effet de ces valeurs extrêmes, ce qui vous fournit des informations plus précises et exploitables. La winsorisation est particulièrement utile lorsque :- Vos données contiennent des valeurs extrêmes qui ne sont pas des erreurs mais qui restent significativement différentes des autres observations.
- Vous recherchez une méthode simple et efficace pour gérer les valeurs aberrantes sans recourir à des techniques plus complexes.
- Vous devez maintenir un équilibre entre l’intégrité des données et la gestion efficace des valeurs aberrantes.
Risques et bonnes pratiques avec la winsorisation
Bien que la winsorisation soit un outil précieux, elle n’est pas sans risques :- Perte d’intégrité des données : une winsorisation excessive peut entraîner une altération importante de vos données, masquant potentiellement des variations et des tendances importantes.
- Sur-simplification : en modifiant les valeurs aberrantes, vous risquez de simplifier excessivement vos données, ce qui peut conduire à une compréhension incomplète de votre jeu de données.
- Introduction de biais : des seuils de winsorisation inappropriés peuvent introduire un biais, fausser vos résultats et conduire à des conclusions erronées. Si vous ne garantissez pas la symétrie autour de la moyenne (5e et 95e percentile), vous risquez de modifier la moyenne.
- Comprenez vos données : avant d’appliquer la winsorisation, comprenez en profondeur la nature et la distribution de vos données. Comprendre vos données vous aide à définir des seuils appropriés pour identifier les valeurs aberrantes.
- Définissez des seuils appropriés : utilisez des standards du secteur ou des informations spécifiques à vos données pour définir vos seuils de winsorisation. Les seuils courants incluent les 0,1 % à 5 % supérieurs et inférieurs de vos données, mais ils doivent être ajustés en fonction de votre cas d’usage spécifique.
- Évaluez l’impact : après avoir appliqué la winsorisation, évaluez son impact sur vos données et les résultats des tests. Comparez les données winsorisées aux données d’origine pour vous assurer qu’aucune information importante n’a été perdue.
- Documentez votre processus : conservez un registre détaillé de votre processus de winsorisation, y compris la justification des seuils choisis et l’impact sur vos données. Cette transparence facilite la reproductibilité et la compréhension.
Comment mettre en œuvre la winsorisation dans Kameleoon
1. Créer un objectif personnalisé
Vous devez d’abord créer un objectif personnalisé auquel vous souhaitez appliquer la winsorisation.2. Définir des limites
Ensuite, vous devez définir des limites pour remplacer les valeurs aberrantes. Par exemple, si vous utilisez une winsorisation à 95 %, tout point de données inférieur au 2,5e percentile est remplacé par la valeur du 2,5e percentile, et tout point de données supérieur au 97,5e percentile est remplacé par la valeur du 97,5e percentile. Ces bornes se trouvent dans les Advanced Settings de votre objectif personnalisé. La méthode de winsorisation sera appliquée à votre Revenue s’il existe.
3. Lire vos résultats
Une fois la winsorisation appliquée à votre objectif, vous pouvez consulter vos résultats ajustés dans les différentes pages de résultats contenant cet objectif. Le conteneur d’objectif affichera alors un badge indiquant que les valeurs aberrantes sont gérées sur cet objectif. Le survol du badge affichera les paramètres que vous avez définis.
Exemple d’impact
Considérez un A/B test comparant deux pages de destination (A et B). Sans winsorisation, quelques valeurs aberrantes élevées (par exemple, des achats effectués par quelques utilisateurs très dépensiers) pourraient faire apparaître une page comme étant significativement plus efficace, même si le comportement typique des utilisateurs ne soutient pas cette conclusion.- Données d’origine (Métrique : revenu par utilisateur) :
- Page A : [10, 12, 14, 15, 16, 18, 100]
- Page B : [11, 13, 15, 15, 17, 19, 110]
- Données winsorisées :
- Page A : [10, 12, 14, 15, 16, 18, 18]
- Page B : [11, 13, 15, 15, 17, 19, 19]
Considérations techniques
- Lorsque vous appliquez cette méthode pour la première fois à votre objectif personnalisé, nous calculons et stockons les valeurs correspondant aux percentiles que vous avez définis et les utilisons sur les pages de résultats pour adapter vos données.
- Les valeurs de percentile utilisées pour plafonner les valeurs aberrantes sont mises à jour une fois par jour à 2 h 00 du matin. Notez que ces valeurs seront réévaluées instantanément si vous modifiez les seuils dans les paramètres de l’objectif.
- Notez que les données brutes ne sont pas modifiées. Vous pouvez toujours retrouver vos données brutes lorsque vous demandez un export brut.