Seleccionar el mejor modelo para usted

Al analizar los resultados de su experimento, es importante buscar modelos con características específicas que sean importantes para su caso de uso. Por ejemplo, además de predicciones siempre precisas, puede que también necesite modelos que puedan ofrecer predicciones con rapidez. En la pestaña Modelos de su experimento, se le recomiendan modelos según varias perspectivas de análisis.

La tabla "Métricas de modelos" en un experimento de ML, con los modelos más destacados presentados como recomendaciones — Analizar los mejores modelos para un experimento

En función de sus filtros, se presentan modelos recomendados para ayudarle a considerar varias perspectivas de calidad diferentes. Un mismo modelo puede considerarse como el mejor modelo en más de un sentido. Los principales tipos de modelos son:

Mejor modelo
Más exacto
Modelo más rápido

Visualización de los modelos superiores en la interfaz de usuario

Para obtener información sobre cómo encontrar y explorar los mejores modelos para su experimento, consulte Análisis de la tabla de métricas del modelo.

Mejor modelo

En función de sus filtros, se selecciona automáticamente el mejor modelo para el análisis. El mejor modelo se resalta con un icono Trofeo .

En Qlik Predict, el mejor modelo se determina a partir de un cálculo equilibrado que tiene en cuenta las métricas de exactitud y velocidad de predicción.

Para determinar el mejor modelo, se realiza automáticamente el siguiente proceso:

Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
- Clasificación binaria: F1
- Clasificación multiclase: Macro F1
- Regresión: R2
- Serie de tiempo: MASE (o MAE si MASE no está disponible)
Utilizando las puntuaciones de rendimiento del intervalo 1, seleccione todos los modelos que estén dentro del cinco por ciento de la puntuación del modelo que obtuvo la puntuación más alta.
De todos los modelos seleccionados, seleccione el modelo con la velocidad de predicción más rápida (consulte Velocidad de predicción). Este modelo es el mejor.

Más exacto

Es importante que su modelo sea capaz de generar predicciones con una gran exactitud de forma constante. Aunque F1, Macro F1 y R2 proporcionan puntuaciones equilibradas que reflejan de forma exhaustiva la exactitud de los modelos, es posible que también le interesen las métricas brutas de exactitud y precisión de sus modelos.

El modelo más exacto se resalta con un icono Objetivo . Para determinar el modelo más exacto, se realiza automáticamente el siguiente proceso:

Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
- Clasificación binaria: F1
- Clasificación multiclase: Macro F1
- Regresión: R2
- Serie de tiempo:MASE (si MASE no está disponible, seleccione el modelo con el MAE menor)
Utilizando las puntuaciones de rendimiento del paso 1, seleccione todos los modelos que estén dentro del diez por ciento de la puntuación del modelo con la puntuación más alta.
Dependiendo del tipo de modelo, se utiliza una de las dos vías siguientes:
1. Clasificación binaria:
  - Si el conjunto de datos de entrenamiento está equilibrado, seleccione el modelo con la puntuación de exactitud más alta. Este es el modelo más preciso. Para obtener información sobre la métrica específica utilizada, consulte Exactitud.
  - Si el conjunto de datos de entrenamiento está desequilibrado, seleccione el modelo con la puntuación de precisión más alta. Para obtener información sobre la métrica específica utilizada, consulte Precisión.
2. Clasificación o regresión multiclase:
  - Seleccione el modelo con la puntuación de exactitud más alta. Se utilizan las siguientes métricas de exactitud:
    - Clasificación multiclase: Exactitud
    - Regresión: MAE
3. Serie de tiempo: seleccione el modelo con la mejor (menor) puntuación MAE.

Modelo más rápido

A la hora de elegir un modelo, quizá le interese valorar la rapidez con la que el modelo puede ofrecer predicciones. El modelo más rápido aparece resaltado con un icono Rayo .

La velocidad de predicción determina qué modelo es el más rápido. Sin embargo, se sigue considerando la exactitud de predicción de los modelos. Esto se debe a que un modelo puede ser capaz de generar predicciones rápidamente, pero también debe ser capaz de predecir con una exactitud razonable.

Para determinar el modelo más rápido, se realiza automáticamente el siguiente proceso:

Seleccione el modelo con la puntuación más alta para la métrica de rendimiento predictivo determinada por el tipo de modelo. Las métricas utilizadas son:
- Clasificación binaria: F1
- Clasificación multiclase: Macro F1
- Regresión: R2
- Serie de tiempo: MASE (si MASE no está disponible, seleccione el modelo con el valor más bajo de MAE)
Se utiliza una de las siguientes vías dependiendo del tipo de modelo:
1. Clasificación binaria:
  - Si el conjunto de datos de entrenamiento está equilibrado, seleccione todos los modelos que tengan una puntuación de exactitud dentro del diez por ciento de la puntuación de exactitud del modelo seleccionado en el paso 1. Para obtener información sobre la métrica específica utilizada, consulte Exactitud.
  - Si el conjunto de datos de entrenamiento está desequilibrado, seleccione todos los modelos que estén dentro del diez por ciento de la puntuación del modelo con mayor puntuación del paso 1. Se utilizan las métricas del paso 1.
2. Clasificación o regresión multiclase:
  - Seleccione todos los modelos que tengan una puntuación de exactitud dentro del diez por ciento de la puntuación de exactitud del modelo del paso 1. Se utilizan las siguientes métricas de exactitud:
    - Clasificación multiclase: Exactitud
    - Regresión: MAE
3. Serie de tiempo: seleccione todos los modelos que estén dentro del diez por ciento de la puntuación MAE del modelo del intervalo 1.
De todos los modelos seleccionados, seleccione el modelo con la velocidad de predicción más rápida (consulte Velocidad de predicción). Este modelo es el más rápido.

Velocidad de predicción

La velocidad de predicción es una métrica de modelos que se aplica a todos los tipos de modelos: clasificación binaria, clasificación multiclase, regresión y series temporales. La velocidad de predicción mide la rapidez con la que un modelo de aprendizaje automático es capaz de generar predicciones.

En Qlik Predict, la velocidad de predicción se calcula utilizando el tiempo combinado de cálculo de las características y el tiempo de predicción del conjunto de datos de prueba. Se muestra en filas por segundo.

La velocidad de predicción puede analizarse en la tabla Métricas del modelo tras ejecutar su versión del experimento. También puede ver los datos de velocidad de predicción cuando analice modelos con análisis integrados. Para más información, vea:

Consideraciones

La velocidad de predicción medida se basa en el tamaño del conjunto de datos de entrenamiento y no en los datos sobre los que se realizan las predicciones. Después de implementar un modelo, es posible que note diferencias entre la rapidez con la que se crean las predicciones si los datos de entrenamiento y de predicción difieren mucho en tamaño, o cuando se crean predicciones en tiempo real sobre una o varias filas de datos.

Sobreajuste

El sobreajuste se produce cuando el comportamiento predictivo de un modelo se asocia de manera demasiado estrecha al conjunto de datos de entrenamiento. Cuando un modelo está sobreajustado, es probable que solo haya memorizado patrones en el conjunto de datos de entrenamiento, y no será capaz de predecir con precisión valores futuros.

El sobreajuste puede tener varias causas, entre ellas problemas relacionados con los algoritmos de entrenamiento y conjuntos de datos de entrenamiento demasiado cortos o complejos.

En Qlik Predict, el sobreajuste se identifica automáticamente mediante un análisis de los resultados prueba-entrenamiento para todas las métricas utilizadas en el proceso de selección de los mejores modelos, excepto la velocidad de predicción:

Modelos de clasificación binaria: F1, Exactitud (datos equilibrados), Precisión (datos desequilibrados)
Modelos de clasificación multiclase: Macro F1, Exactitud
Modelos de regresión: R2, MAE

Si hay una diferencia superior al diez por ciento entre cualquiera de estas métricas al comparar los resultados de las pruebas y del entrenamiento, se sospecha que el modelo está sobreajustado.

Si se sospecha que un modelo está sobreajustado, nunca se presenta como modelo recomendado, aunque obtenga una buena puntuación. El modelo aparece marcado con una advertencia en la tabla Métricas de modelos.

Si se sospecha que todos los modelos que aparecen en sus filtros están sobreajustados, no se proporcionan recomendaciones de modelos.

Abordar el sobreajuste

Puede abordar el sobreajuste mediante:

No implementar modelos sospechosos de sobreajuste.
Si sospecha que hay algún problema con su conjunto de datos de entrenamiento, consulte Cómo preparar su conjunto de datos para el entrenamiento para saber cómo puede preparar sus datos de entrenamiento para evitar el sobreajuste.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios