Controlar la deriva de los datos en los modelos implementados
En el panel de Control de la deriva de datos de su implementación de ML, puede analizar la deriva de datos para el modelo desplegado de origen. El control de la deriva de los datos permite identificar los cambios en las distribuciones de una o varias características utilizadas para entrenar el modelo.
Cuando la deriva calculada para una característica supera un valor de 0,25, se recomienda volver a entrenar el modelo con los datos más recientes, o configurar un nuevo modelo si la pregunta original de aprendizaje automático ha cambiado significativamente.
Cálculos de deriva de datos en AutoML
En Qlik AutoML, la deriva de los datos se calcula como el índice de estabilidad de la población (IEP).
Puede identificar una desviación significativa de los datos de una característica observando su valor PSI. Si el valor PSI es mayor o igual a 0,25, considere la posibilidad de volver a entrenar el modelo o de crear un nuevo experimento.
Valor PSI | Descripción |
---|---|
Por debajo del 0,1 | Baja deriva |
Superior a 0,1 pero inferior a 0,25 | Deriva menor |
Mayor o igual a 0,25 | Deriva significativa |
Lanzar un análisis de deriva de los datos
Haga lo siguiente:
-
Abra una implementación de ML.
-
En el panel izquierdo, seleccione Control de la deriva de datos.
-
Se genera un análisis integrado. Permanezca en la hoja Feature Drift para realizar el análisis de deriva de datos.
Disponibilidad del análisis
Los nuevos cálculos para la desviación de datos no se generan inmediatamente al abrir un análisis. Los cálculos de deriva de datos se generan una vez al día a las 16:30 UTC.
Navegación por las analíticas integradas
Utilice la interfaz interactiva para analizar el modelo implementado con análisis integrados.
Desplazamiento entre hojas
El panel Hojas le permite cambiar entre las hojas del análisis. Cada hoja tiene un objetivo específico. El panel puede expandirse y contraerse según sea necesario.
La hoja Feature Drift contiene toda la información sobre la deriva de los datos. El cambio a la hoja Operations le permite supervisar el uso de su implementación de ML. Para más información, vea Supervisar las operaciones del modelo implementado.
Selecciones
Utilice las selecciones para perfeccionar los datos. Puede seleccionar características y sus valores o rangos específicos, y filtrar por fechas y rangos de importancia concretos. En algunos casos, puede que tenga que realizar una o varias selecciones para que se muestren las visualizaciones. Haga clic en los valores de los datos en las visualizaciones para realizar selecciones.
Puede trabajar con las selecciones de las siguientes maneras:
-
Seleccione valores haciendo clic en el contenido, definiendo rangos y moviendo el ratón.
-
Busque dentro de los gráficos para seleccionar valores.
-
Haga clic en un campo seleccionado en la barra de herramientas situada en la parte superior del análisis incrustado. Esto le permite buscar en las selecciones existentes, bloquearlas o desbloquearlas y modificarlas posteriormente.
-
En la barra de herramientas situada en la parte superior del análisis insertado, haga clic en para eliminar una selección. Borre todas las selecciones haciendo clic en el icono .
-
Avance y retroceda en las selecciones haciendo clic en y .
Analizar la deriva de las características junto con la importancia
Utilice el gráfico Feature drift vs importance para analizar conjuntamente la deriva de las características y la importancia de las permutaciones. Puede identificar cuándo se producen cambios en la deriva en paralelo con patrones cambiantes en la importancia. Viendo estas dos métricas juntas, puede descubrir nuevos patrones emergentes y desarrollar una comprensión más profunda de las tendencias que afectan a sus datos.
Para entender qué significan las puntuaciones de deriva para el rendimiento de su modelo, consulte Cálculos de deriva de datos en AutoML.
Supervisión de la deriva de las características a lo largo del tiempo
En el gráfico Feature drift over time, vea la cronología de cada cálculo de deriva y analice los cambios que se han ido produciendo a lo largo del tiempo a medida que se generan nuevas predicciones.
Se ha añadido una línea de referencia a un valor PSI de 0,25 para indicar cuándo una característica está demostrando una deriva significativa. Para saber más sobre lo que significan las puntuaciones de deriva para el rendimiento de su modelo, consulte Cálculos de deriva de datos en AutoML.
Visualización de la distribución de características
El gráfico Value distribution es útil para comparar la distribución de valores de una característica entre el conjunto de datos de entrenamiento y el conjunto de datos utilizado para la última predicción generada con el modelo. Puede identificar qué rangos de una característica se ven más y menos afectados por la deriva.
Las barras azules indican el porcentaje de valores del último conjunto de datos aplicado que se encuentran dentro de cada rango. Los marcadores morados en forma de círculo muestran el porcentaje de valores del conjunto de datos de entrenamiento que entran dentro de cada rango. Si observa una gran diferencia entre la altura de las barras y la posición de los marcadores, es probable que el rango se vea afectado por la deriva.