¿Qué es la winsorización?
La winsorización es una técnica estadística que se utiliza para limitar los valores extremos en los datos con el fin de reducir el impacto de los valores atípicos mediante el uso de percentiles de sus datos. Los valores atípicos son puntos de datos que difieren significativamente del resto de observaciones y pueden distorsionar los resultados de sus pruebas A/B. Al winsorizar sus datos, puede asegurarse de que sus resultados sean más robustos y fiables.Por qué la winsorización es importante en las pruebas A/B
En las pruebas A/B, comparamos dos o más variaciones para determinar cuál rinde mejor. Los valores atípicos pueden distorsionar el rendimiento real de estas variaciones y llevar a conclusiones engañosas. Al aplicar la winsorización, mitigamos el efecto de estos valores extremos, brindándole información más precisa y accionable. La winsorización es especialmente útil cuando:- Sus datos contienen valores extremos que no son errores pero que aun así difieren significativamente de las demás observaciones.
- Busca un método sencillo y eficaz para manejar valores atípicos sin recurrir a técnicas más complejas.
- Necesita mantener un equilibrio entre la integridad de los datos y la gestión eficaz de los valores atípicos.
Riesgos y buenas prácticas con la winsorización
Aunque la winsorización es una herramienta valiosa, no está exenta de riesgos:- Pérdida de integridad de los datos: un exceso de winsorización puede provocar una alteración significativa de sus datos, ocultando posiblemente variaciones y patrones importantes.
- Sobresimplificación: al modificar valores atípicos, puede sobresimplificar sus datos, lo que puede dar lugar a una comprensión incompleta de su conjunto de datos.
- Introducción de sesgos: umbrales de winsorización inadecuados pueden introducir sesgos, distorsionar sus resultados y conducir a conclusiones incorrectas. Si no garantiza la simetría en torno a la media (percentiles 5 y 95), podría alterar la media.
- Conozca sus datos: antes de aplicar la winsorización, comprenda a fondo la naturaleza y la distribución de sus datos. Comprender sus datos le ayuda a establecer umbrales adecuados para identificar valores atípicos.
- Establezca umbrales adecuados: utilice estándares del sector o conocimientos específicos de los datos para establecer sus umbrales de winsorización. Los umbrales comunes incluyen entre el 0,1 % y el 5 % superior e inferior de sus datos, pero deben ajustarse en función de su caso de uso específico.
- Evalúe el impacto: tras aplicar la winsorización, evalúe su impacto en sus datos y resultados de prueba. Compare los datos winsorizados con los originales para garantizar que no se pierda información importante.
- Documente su proceso: mantenga un registro detallado de su proceso de winsorización, incluida la justificación de los umbrales elegidos y el impacto en sus datos. Esta transparencia ayuda a la reproducibilidad y comprensión.
Cómo implementar la winsorización en Kameleoon
1. Crear un objetivo personalizado
Primero, debe crear un objetivo personalizado al que desee aplicar la winsorización.2. Establecer los límites
A continuación, debe establecer los límites para sustituir los valores atípicos. Por ejemplo, si está utilizando una winsorización al 95 %, cualquier punto de datos por debajo del percentil 2,5 se ajusta al valor del percentil 2,5, y cualquier punto de datos por encima del percentil 97,5 se ajusta al valor del percentil 97,5. Estos límites se encuentran en Advanced Settings de su objetivo personalizado. El método de winsorización se aplicará a sus Revenue si existen.
3. Leer sus resultados
Una vez aplicada la winsorización a su objetivo, puede leer sus resultados ajustados en las diferentes páginas de resultados que contengan este objetivo. El contenedor del objetivo tendrá entonces un distintivo indicando que se manejan valores atípicos en este objetivo. Al pasar el cursor sobre el distintivo se mostrarán los parámetros que ha establecido.
Ejemplo de impacto
Considere una prueba A/B que compara dos páginas de destino (A y B). Sin winsorización, unos pocos valores atípicos elevados (por ejemplo, compras realizadas por unos pocos usuarios que gastan mucho) podrían hacer que una página pareciera significativamente más eficaz, aunque el comportamiento típico del usuario no respaldara esta conclusión.- Datos originales (métrica: ingresos por usuario):
- Página A: [10, 12, 14, 15, 16, 18, 100]
- Página B: [11, 13, 15, 15, 17, 19, 110]
- Datos winsorizados:
- Página A: [10, 12, 14, 15, 16, 18, 18]
- Página B: [11, 13, 15, 15, 17, 19, 19]
Consideraciones técnicas
- Cuando aplique este método por primera vez a su objetivo personalizado, calcularemos y almacenaremos los valores correspondientes a los percentiles que haya establecido y los utilizaremos en las páginas de resultados para adaptar sus datos.
- Los valores de percentil utilizados para recortar los valores atípicos se actualizan una vez al día a las 2:00 a. m. Tenga en cuenta que estos valores se reevaluarán al instante si cambia los umbrales en la configuración del objetivo.
- Tenga en cuenta que los datos sin procesar no se modifican. Aún puede encontrar sus datos sin procesar al solicitar una exportación sin procesar.