Saltar al contenido principal Saltar al contenido complementario

Entendimiento de los algoritmos del modelo

Un algoritmo es una instrucción matemática que produce un modelo. Toma unos datos de entrada, su conjunto de datos, y produce un resultado de salida, el modelo. Cada algoritmo tiene sus puntos fuertes y débiles.

Al elegir un objetivo, AutoML selecciona automáticamente los mejores algoritmos para cada caso de uso. El objetivo determina qué tipo de algoritmos utilizar.

Los algoritmos que mejor funcionan con problemas de clasificación binarios y multiclase se utilizan cuando:

  • El objetivo solo tiene dos valores únicos posibles, por ej. "¿Cancelará un cliente su suscripción?": Sí o No.

  • El objetivo es una cadena de caracteres con entre tres y diez valores únicos. Por ejemplo, decidir la combinación óptima de campañas cuyo objetivo sea uno de los siguientes: "rojo", "azul", "verde" o "amarillo".

Los algoritmos que mejor funcionan con problemas de regresión se utilizan si el objetivo es una columna numérica. Predecir cuánto comprará un cliente es un ejemplo de problema de regresión.

Algoritmos para problemas de clasificación binaria y multiclase

AutoML utiliza los siguientes algoritmos para problemas de clasificación binarios y multiclase:

  • Clasificación Catboost

  • Regresión neta elástica

  • Naive Bayes gaussiano

  • Regresión Lasso

  • Clasificación LightGBM

  • Regresión logística

  • Clasificación Random Forest

  • Clasificación XGBoost

Algoritmos para problemas de regresión

AutoML utiliza los siguientes algoritmos para problemas de regresión:

  • Regresión Catboost

  • Regresión LightGBM

  • Regresión lineal

  • Regresión Random Forest

  • Regresión SGD

  • Regresión XGBoost

Diferentes tipos de modelos

Los tipos de modelos se pueden dividir en modelos de regresión, conjuntos y otros tipos de modelos de aprendizaje automático.

Modelos de regresión

Los modelos de regresión, o modelos lineales generales, son modelos que buscan tendencias a lo largo del dominio de cada variable de forma independiente entre sí. Al igual que la ecuación algebraica y = mx+b, el algoritmo busca elegir una m y una b que proporcionarán la mayor exactitud posible, en promedio, para cada valor x e y. En general, se trata del mismo concepto cuando hay más de una variable. La regresión lineal y la regresión logística son ejemplos de modelos de regresión para problemas de regresión y problemas de clasificación, respectivamente.

En los problemas de clasificación, el resultado del modelo de regresión es la probabilidad de que la muestra sea la clase positiva. Esto significa que y es igual a la probabilidad y no a un valor real.

Las regresiones son buenas para encontrar tendencias lineales en los datos, pero a veces hay una relación que no es lineal. Para que una regresión pueda ajustarse bien a un patrón no lineal, es necesario transformar los datos antes de entrenar el modelo. El beneficio de una sólida comprensión de las relaciones lineales es que las relaciones lineales generalmente funcionan mejor con extrapolación. La tabla muestra los pros y contras de los modelos de regresión.

Pros Contras
  • Bueno para extrapolar

  • Bueno para encontrar tendencias lineales a variables independientes

  • Bueno con grandes datos de la misma población

  • Sencillo de entender

  • Deficiente en la explotación de patrones entre variables

  • Deficiente para ajustar tendencias no lineales

  • A veces demasiado simplista

Combinar modelos

Los conjuntos se producen cuando se combinan varios modelos. Esto podría compararse con un grupo de personas que están votando con diferentes antecedentes y se utiliza el voto promedio para decidir. Random Forest y XGBoost son ejemplos de modelos de conjuntos.

Los conjuntos pueden resolver tanto problemas de regresión como problemas de clasificación. Son buenos para encontrar relaciones no lineales y descubrir cómo las interacciones entre las variables afectan al objetivo. Aunque los conjuntos son buenos para aprender los patrones dentro del rango de datos en el que se entrenan, se desempeñan mal en la predicción de valores fuera del rango que han visto. La tabla enumera los pros y los contras de los modelos de conjunto.

Pros Contras
  • Bueno para explotar patrones entre variables

  • Bueno para encontrar tendencias no lineales

  • Bueno con grandes datos de la misma población

  • Deficiente para extrapolar

  • No es tan fácil de interpretar

Otros tipos de modelos

Otros tipos de modelos incluyen todos los demás tipos de modelos. Entre los ejemplos se incluyen Vecinos más cercanos y Gaussian Naive Bayes. Estos tipos de modelos generalmente intentan crear una nueva representación espacial de los datos, a menudo creando algún tipo de métrica de distancia que mide las diferencias entre dos registros. Pueden servir para manejar tendencias no lineales, pero a nivel computacional son mucho más costosos a medida que aumenta el tamaño del conjunto de datos. La tabla muestra los pros y los contras de otros modelos.

Pros Contras
  • Bueno para explotar patrones entre variables

  • Bueno para encontrar tendencias no lineales

  • Deficiente para extrapolar

  • Computacionalmente más costoso en conjuntos de datos extensos

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.