Capítulo 7. Detección de anomalías en datos no normalizados

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 6, te mostré tres formas de visualizar los valores atípicos cuando tus datos tienen una distribución normal. Sin embargo, a menudo te encontrarás con datos que no tienen una distribución normal. Utilizar métodos que asumen una distribución normal podría llevar a conclusiones falsas o a decisiones equivocadas por tu parte y la de tus interesados. Por eso son tan importantes las tácticas exploratorias tratadas en el Capítulo 4.

En este capítulo, te mostraré tres métodos que puedes aplicar para visualizar los valores atípicos cuando trabajes con datos no normalizados. Los métodos son la desviación media absoluta, los cercos de Tukey y la prueba de puntuación z modificada.

Entender la desviación absoluta de la mediana

La desviación absoluta de la mediana (DAM ) es una medida estadística que cuantifica la dispersión o variabilidad de un conjunto de datos. Se calcula hallando la desviación absoluta de cada punto de datos, restando la mediana de cada valor y tomando el valor absoluto del resultado. Luego se halla la mediana de las desviaciones absolutas, lo que te da la DMA. La fórmula matemática para calcular la MAD es la siguiente:

MAD = Mediana ( | X i - Mediana | )

donde

MAD = desviación absoluta mediana

Xi = cada valor

Mediana = valor mediano

Los pasos para hallar la MAD son ...

Get Cuadro estadístico now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.