Seleccionar el mejor modelo para usted
Al analizar los resultados de su experimento, es importante buscar modelos con características específicas que sean importantes para su caso de uso. Por ejemplo, además de predicciones siempre precisas, puede que también necesite modelos que puedan ofrecer predicciones con rapidez. En la pestaña Modelos de su experimento, se le recomiendan modelos según varias perspectivas de análisis.
Analizar los mejores modelos para un experimento
En función de sus filtros, se presentan modelos recomendados para ayudarle a considerar varias perspectivas de calidad diferentes. Un mismo modelo puede considerarse como el mejor modelo en más de un sentido. Los principales tipos de modelos son:
Visualización de los modelos superiores en la interfaz de usuario
Para obtener información sobre cómo encontrar y explorar los mejores modelos para su experimento, consulte Análisis de la tabla de métricas del modelo.
Mejor modelo
En función de sus filtros, se selecciona automáticamente el mejor modelo para el análisis. El mejor modelo se resalta con un icono .
En Qlik Predict, el mejor modelo se determina a partir de un cálculo equilibrado que tiene en cuenta las métricas de exactitud y velocidad de predicción.
Para determinar el mejor modelo, se realiza automáticamente el siguiente proceso:
-
Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
-
Clasificación binaria: F1
-
Clasificación multiclase: Macro F1
-
Regresión: R2
-
Serie de tiempo: MASE (o MAE si MASE no está disponible)
-
-
Utilizando las puntuaciones de rendimiento del intervalo 1, seleccione todos los modelos que estén dentro del cinco por ciento de la puntuación del modelo que obtuvo la puntuación más alta.
-
De todos los modelos seleccionados, seleccione el modelo con la velocidad de predicción más rápida (consulte Velocidad de predicción). Este modelo es el mejor.
Más exacto
Es importante que su modelo sea capaz de generar predicciones con una gran exactitud de forma constante. Aunque F1, Macro F1 y R2 proporcionan puntuaciones equilibradas que reflejan de forma exhaustiva la exactitud de los modelos, es posible que también le interesen las métricas brutas de exactitud y precisión de sus modelos.
El modelo más exacto se resalta con un icono . Para determinar el modelo más exacto, se realiza automáticamente el siguiente proceso:
-
Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
-
Utilizando las puntuaciones de rendimiento del paso 1, seleccione todos los modelos que estén dentro del diez por ciento de la puntuación del modelo con la puntuación más alta.
-
Dependiendo del tipo de modelo, se utiliza una de las dos vías siguientes:
-
Clasificación binaria:
-
Si el conjunto de datos de entrenamiento está equilibrado, seleccione el modelo con la puntuación de exactitud más alta. Este es el modelo más preciso. Para obtener información sobre la métrica específica utilizada, consulte Exactitud.
-
Si el conjunto de datos de entrenamiento está desequilibrado, seleccione el modelo con la puntuación de precisión más alta. Para obtener información sobre la métrica específica utilizada, consulte Precisión.
-
-
Clasificación o regresión multiclase:
-
Serie de tiempo: seleccione el modelo con la mejor (menor) puntuación MAE.
-
Modelo más rápido
A la hora de elegir un modelo, quizá le interese valorar la rapidez con la que el modelo puede ofrecer predicciones. El modelo más rápido aparece resaltado con un icono .
La velocidad de predicción determina qué modelo es el más rápido. Sin embargo, se sigue considerando la exactitud de predicción de los modelos. Esto se debe a que un modelo puede ser capaz de generar predicciones rápidamente, pero también debe ser capaz de predecir con una exactitud razonable.
Para determinar el modelo más rápido, se realiza automáticamente el siguiente proceso:
-
Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
-
Se utiliza una de las siguientes vías dependiendo del tipo de modelo:
-
Clasificación binaria:
-
Si el conjunto de datos de entrenamiento está equilibrado, seleccione todos los modelos que tengan una puntuación de exactitud dentro del diez por ciento de la puntuación de exactitud del modelo seleccionado en el paso 1. Para obtener información sobre la métrica específica utilizada, consulte Exactitud.
-
Si el conjunto de datos de entrenamiento está desequilibrado, seleccione todos los modelos que estén dentro del diez por ciento de la puntuación del modelo con mayor puntuación del paso 1. Se utilizan las métricas del paso 1.
-
-
Clasificación o regresión multiclase:
-
Serie de tiempo: seleccione todos los modelos que estén dentro del diez por ciento de la puntuación MAE del modelo del intervalo 1.
-
-
De todos los modelos seleccionados, seleccione el modelo con la velocidad de predicción más rápida (consulte Velocidad de predicción). Este modelo es el más rápido.
Velocidad de predicción
La velocidad de predicción es una métrica de modelos que se aplica a todos los tipos de modelos: clasificación binaria, clasificación multiclase, regresión y series temporales. La velocidad de predicción mide la rapidez con la que un modelo de aprendizaje automático es capaz de generar predicciones.
En Qlik Predict, la velocidad de predicción se calcula utilizando el tiempo combinado de cálculo de las características y el tiempo de predicción del conjunto de datos de prueba. Se muestra en filas por segundo.
La velocidad de predicción puede analizarse en la tabla Métricas del modelo tras ejecutar su versión del experimento. También puede ver los datos de velocidad de predicción cuando analice modelos con análisis integrados. Para más información, vea:
Consideraciones
La velocidad de predicción medida se basa en el tamaño del conjunto de datos de entrenamiento y no en los datos sobre los que se realizan las predicciones. Después de implementar un modelo, es posible que note diferencias entre la rapidez con la que se crean las predicciones si los datos de entrenamiento y de predicción difieren mucho en tamaño, o cuando se crean predicciones en tiempo real sobre una o varias filas de datos.
Sobreajuste
El sobreajuste se produce cuando el comportamiento predictivo de un modelo se asocia de manera demasiado estrecha al conjunto de datos de entrenamiento. Cuando un modelo está sobreajustado, es probable que solo haya memorizado patrones en el conjunto de datos de entrenamiento, y no será capaz de predecir con precisión valores futuros.
El sobreajuste puede tener varias causas, entre ellas problemas relacionados con los algoritmos de entrenamiento y conjuntos de datos de entrenamiento demasiado cortos o complejos.
En Qlik Predict, el sobreajuste se identifica automáticamente mediante un análisis de los resultados prueba-entrenamiento para todas las métricas utilizadas en el proceso de selección de los mejores modelos, excepto la velocidad de predicción:
-
Modelos de clasificación binaria: F1, Exactitud (datos equilibrados), Precisión (datos desequilibrados)
Si hay una diferencia superior al diez por ciento entre cualquiera de estas métricas al comparar los resultados de las pruebas y del entrenamiento, se sospecha que el modelo está sobreajustado.
Si se sospecha que un modelo está sobreajustado, nunca se presenta como modelo recomendado, aunque obtenga una buena puntuación. El modelo aparece marcado con una advertencia en la tabla Métricas de modelos.
Si se sospecha que todos los modelos que aparecen en sus filtros están sobreajustados, no se proporcionan recomendaciones de modelos.
Abordar el sobreajuste
Puede abordar el sobreajuste mediante:
-
No implementar modelos sospechosos de sobreajuste.
-
Si sospecha que hay algún problema con su conjunto de datos de entrenamiento, consulte Cómo preparar su conjunto de datos para el entrenamiento para saber cómo puede preparar sus datos de entrenamiento para evitar el sobreajuste.