Deriva de datos
Con el tiempo, la exactitud de su modelo puede disminuir porque los datos de una o varias características cambian de distribución, magnitud y otras propiedades. Dado que el modelo original se entrenó con características que contienen patrones y distribuciones específicos, los cambios futuros en estas distribuciones afectarán a la precisión y la calidad de las predicciones.
La deriva de los datos puede cuantificarse y calcularse de varias maneras. En Qlik AutoML, la deriva de los datos se calcula con la fórmula del índice de estabilidad de la población. Vea Controlar la deriva de los datos en los modelos implementados.
Una buena práctica consiste en supervisar su modelo en busca de desviaciones de datos comparando el conjunto de datos de entrenamiento original con el conjunto de datos de aplicación más actualizado sobre el que está generando predicciones. Cuando la deriva de los datos alcance un umbral específico, vuelva a entrenar el modelo o configure un nuevo modelo si su problema original de aprendizaje automático ha cambiado sustancialmente.
Para más información sobre la evaluación del rendimiento del modelo a lo largo del tiempo, consulte Evaluar el rendimiento del modelo a lo largo del tiempo.
Ejemplo
Supongamos que una empresa tiene un conjunto de productos que se han hecho muy populares principalmente entre consumidores de 45 años o más. La distribución de valores para una característica de Edad podría presentar el siguiente aspecto.
Recientemente, la empresa ha introducido un nuevo producto que se comercializa para atraer también a los consumidores más jóvenes. Cuando el producto se vende como se espera, observamos una desviación significativa de la característica Edad.
Supervisar la deriva de datos en AutoML
AutoML cuenta con herramientas integradas que le ayudarán a detectar la deriva o desviación de datos por características en los modelos implementados. Para más información, vea Controlar la deriva de los datos en los modelos implementados.