Detección y gestión de anomalías
Se proporciona detección y manejo de anomalías cuando se utiliza la optimización inteligente de modelos. Con estas capacidades, Qlik AutoML puede manejar valores atípicos en sus datos de formación automáticamente con un procesamiento específico. Durante el entrenamiento, los datos atípicos de sus datos de entrenamiento no se eliminan por completo, sino que se procesan utilizando un sistema de ponderación basado en algoritmos.
Es habitual observar valores atípicos, o anomalías, en casi todos los tipos de datos con los que se puede trabajar. Las anomalías son valores de datos que se producen fuera del rango convencionalmente esperado. Cuando se entrenan modelos de aprendizaje automático, puede tolerarse una cierta proporción de anomalías y puede incluso ser deseable como reflejo de la desviación que se produce en el mundo real. Sin embargo, en casos extremos, las anomalías y los valores atípicos introducen sesgos en un modelo, reduciendo su fiabilidad y utilidad.
Ejemplos
No todas las anomalías deben tratarse igual y no siempre deben ser vistas como algo que se ha de eliminar de los datos. Por ejemplo, si una anomalía en los datos es un suceso naturalmente posible pero infrecuente que puede observarse al recopilar datos, puede tener sentido que quiera que esto se utilice en los modelos que entrena. Un buen ejemplo de ello son los casos de fraude en las transacciones financieras. Entre millones de transacciones, únicamente unas cuantas podrían estar relacionadas con el fraude. Dependiendo del problema que desee analizar y abordar con su modelo, la probabilidad de fraude en las transacciones cotidianas podría ser algo que le gustaría tener en cuenta a la hora de generar predicciones.
Un ejemplo de anomalía que probablemente querría eliminar es un error involuntario que se produce cuando está recopilando datos. Por ejemplo, supongamos que está creando un modelo que se utilizará para predecir patrones meteorológicos. Su modelo está siendo entrenado con datos de un sensor que supervisa las métricas meteorológicas y un corte de electricidad no relacionado con el mismo provoca que se recojan datos defectuosos del sensor. Estos datos defectuosos podrían considerarse datos anómalos que querría eliminar antes de finalizar el entrenamiento del modelo.
¿Cómo gestiona Qlik AutoML las anomalías?
La detección y el tratamiento de las anomalías se realizan cuando se entrenan los modelos con la optimización inteligente de modelos, que está activada de manera predeterminada en los nuevos experimentos.
Por lo general puede considerarse que el tratamiento de las anomalías se produce en dos procesos distintos: la detección y el entrenamiento del modelo real.
Detección de anomalías
Cuando ejecuta una versión del entrenamiento, AutoML completa varios pasos antes de que comience el entrenamiento del modelo. Incluye la clasificación de datos, la imputación de nulos y otros procesos. La detección de anomalías se completa durante esta etapa y únicamente cuando se activa la optimización inteligente de modelos.
En términos técnicos, Qlik AutoML utiliza un algoritmo basado en árboles de decisión, el algoritmo del bosque de aislamiento, para detectar anomalías y valores atípicos en sus datos de entrenamiento. Durante la etapa de procesamiento de datos en la optimización de modelos inteligente, a cada punto de datos del conjunto de datos (generalmente conocido como registro) se le asigna una puntuación de anomalía y se pondera en función del grado de certeza de que se trata de una anomalía.
Tratamiento de anomalías en el entrenamiento de modelos
Una vez procesados y transformados sus datos según sea necesario, AutoML comienza a entrenar modelos. Durante este proceso, las puntuaciones ponderadas de anomalías generadas anteriormente se utilizan para ajustar la influencia que cada fila tiene sobre el modelo. Por ejemplo, a una fila que se considera muy probable que contenga una anomalía se le asigna una influencia baja en el entrenamiento del modelo.
Este sistema de puntuación ponderada permite a AutoML evitar el descarte de datos y, en su lugar, simplemente reducir el impacto que los datos atípicos tienen en el modelo.
Consideraciones
A pesar de las capacidades de detección de anomalías que están disponibles con Qlik AutoML, esto no significa que cualquier dato pueda ser utilizado para entrenar un modelo de alta calidad. Si sus datos contienen proporciones inusualmente grandes de información defectuosa o corrupta, la detección de anomalías no puede solucionar todos estos problemas.
En esos casos, se recomienda volver al proceso de recopilación de datos para asegurarse de que dispone de los datos más realistas y de mayor calidad. Esto le ayudará a optimizar la fiabilidad y el éxito de su modelo de aprendizaje automático.