Imaginemos que en una tienda de helados quieren predecir cuánto espera vender en el mes de septiembre, debe tener en cuenta al menos cuánto vendió en julio y agosto.
Así tendrán un promedio de cómo se comportan sus clientes, podrán saber qué esperar y estar preparados para ello.
Sin embargo, al hacer los balances se dieron cuenta de que hay datos muy fuera de lo común: ¿Cómo es posible que casi todos los días haya vendido entre 70 y 100 unidades y, aparentemente, un día vendió 810 y otro, 750?
Revisan su historial y no, tampoco la respuesta es porque esos dos días hubieran hecho promoción de descuentos irresistibles. Mucho menos a una innovación de sus recetas. Entonces, ¿qué pasó? Estas situaciones no son tan raras como se pudieran creer.
Los datos atípicos (aquellos que se separan mucho numéricamente del resto de los datos) son comunes en los datos de las empresas, y muchas veces aparecen cuando hay mala digitación: en este caso, el día que vendieron 810 productos, en realidad despacharon 81, pero al momento de introducir la información al sistema agregaron un cero de más.
¿El problema? Cuando hay presencia de datos atípicos, el promedio se altera, y las estadísticas se descomponen. Por eso, en nuestra tienda no se pudo predecir correctamente desde un principio cuánta leche encargar o cuánto azúcar comprar. Dos datos atípicos de julio y agosto generaron un fuerte dolor de cabeza.
Una intervención que mejora las predicciones
Frente a esta problemática, investigadores de la Universidad EAFIT mejoraron un modelo de aprendizaje estadístico utilizado para hacer predicciones, con el propósito de que estas sean más acertadas, incluso a pesar de la presencia de datos atípicos como los de la tienda.
En este estudio participó Henry Velasco, por eso, te invitamos a conocer su historia.
El modelo estadístico mejorado consiste en tres etapas. Primero, elimina la mayor cantidad posible de datos atípicos. Segundo, disminuye el impacto que puede generar los datos atípicos (que no se eliminaron en la fase 1) sobre el resultado. Tercero, una vez el impacto de datos atípicos se ha reducido, ya puede establecerse la relación entre las variables y el promedio.
¿Qué hicieron? La intervención de los investigadores se llevó a cabo en la segunda etapa del modelo: consiguieron una forma para que los datos atípicos que quedaran dentro del estudio tuvieran el menor impacto posible en el resultado final.
La investigación reveló que, en muchos casos, la intervención en esta etapa ayudó a que, en efecto, los resultados no se vieran tan alterados incluso con la presencia de datos atípicos.
"Propusimos un método que utiliza la comediana como una estimación de dispersión muy robusta a datos atípicos", explica
Mauricio Toro Bermúdez, profesor del Departamento de Informática y Sistemas.
De esta forma, en la tienda de helados, por ejemplo, podrían encontrar una posible solución a la problemática: a pesar de que los datos estén equivocados al decir que la tienda vendió 800 y 750 productos en dos días de julio y agosto, con el nuevo modelo podrá hacer unas predicciones más acertadas para las ventas de septiembre.
Texto y video
Christian Alexander Martinez-Guerrero
Velasco, Henry, Henry Laniado, Mauricio Toro, Víctor Leiva, and Yuhlong Lio. 2020. "Robust Three-Step Regression Based on Comedian and Its Performance in Cell-Wise and Case-Wise Outliers"
Mathematics 8, no. 8: 1259.
https://doi.org/10.3390/math8081259.