Entendimiento de los algoritmos del modelo
Un algoritmo es una instrucción matemática que produce un modelo. Toma unos datos de entrada, su conjunto de datos, y produce un resultado de salida, el modelo. Cada algoritmo tiene sus puntos fuertes y débiles.
Al elegir un objetivo, AutoML selecciona automáticamente los mejores algoritmos para cada caso de uso. El objetivo determina qué tipo de algoritmos utilizar.
Los algoritmos que mejor funcionan con problemas de clasificación binarios y multiclase se utilizan cuando:
-
El objetivo solo tiene dos valores únicos posibles, por ej. "¿Cancelará un cliente su suscripción?": Sí o No.
-
El objetivo es una cadena de caracteres con entre tres y diez valores únicos. Por ejemplo, decidir la combinación óptima de campañas cuyo objetivo sea uno de los siguientes: "rojo", "azul", "verde" o "amarillo".
Los algoritmos que mejor funcionan con problemas de regresión se utilizan si el objetivo es una columna numérica. Predecir cuánto comprará un cliente es un ejemplo de problema de regresión.
Algoritmos para problemas de clasificación binaria y multiclase
AutoML utiliza los siguientes algoritmos para problemas de clasificación binarios y multiclase:
-
Clasificación Catboost
-
Regresión neta elástica
-
Naive Bayes gaussiano
-
Regresión Lasso
-
Clasificación LightGBM
-
Regresión logística
-
Clasificación Random Forest
-
Clasificación XGBoost
Algoritmos para problemas de regresión
AutoML utiliza los siguientes algoritmos para problemas de regresión:
-
Regresión Catboost
-
Regresión LightGBM
-
Regresión lineal
-
Regresión Random Forest
-
Regresión SGD
-
Regresión XGBoost
Diferentes tipos de modelos
Los tipos de modelos se pueden dividir en modelos de regresión, conjuntos y otros tipos de modelos de aprendizaje automático.
Modelos de regresión
Los modelos de regresión, o modelos lineales generales, son modelos que buscan tendencias a lo largo del dominio de cada variable de forma independiente entre sí. Al igual que la ecuación algebraica y = mx+b, el algoritmo busca elegir una m y una b que proporcionarán la mayor exactitud posible, en promedio, para cada valor x e y. En general, se trata del mismo concepto cuando hay más de una variable. La regresión lineal y la regresión logística son ejemplos de modelos de regresión para problemas de regresión y problemas de clasificación, respectivamente.
En los problemas de clasificación, el resultado del modelo de regresión es la probabilidad de que la muestra sea la clase positiva. Esto significa que y es igual a la probabilidad y no a un valor real.
Las regresiones son buenas para encontrar tendencias lineales en los datos, pero a veces hay una relación que no es lineal. Para que una regresión pueda ajustarse bien a un patrón no lineal, es necesario transformar los datos antes de entrenar el modelo. El beneficio de una sólida comprensión de las relaciones lineales es que las relaciones lineales generalmente funcionan mejor con extrapolación. La tabla muestra los pros y contras de los modelos de regresión.
Pros | Contras |
---|---|
|
|
Combinar modelos
Los conjuntos se producen cuando se combinan varios modelos. Esto podría compararse con un grupo de personas que están votando con diferentes antecedentes y se utiliza el voto promedio para decidir. Random Forest y XGBoost son ejemplos de modelos de conjuntos.
Los conjuntos pueden resolver tanto problemas de regresión como problemas de clasificación. Son buenos para encontrar relaciones no lineales y descubrir cómo las interacciones entre las variables afectan al objetivo. Aunque los conjuntos son buenos para aprender los patrones dentro del rango de datos en el que se entrenan, se desempeñan mal en la predicción de valores fuera del rango que han visto. La tabla enumera los pros y los contras de los modelos de conjunto.
Pros | Contras |
---|---|
|
|
Otros tipos de modelos
Otros tipos de modelos incluyen todos los demás tipos de modelos. Entre los ejemplos se incluyen Vecinos más cercanos y Gaussian Naive Bayes. Estos tipos de modelos generalmente intentan crear una nueva representación espacial de los datos, a menudo creando algún tipo de métrica de distancia que mide las diferencias entre dos registros. Pueden servir para manejar tendencias no lineales, pero a nivel computacional son mucho más costosos a medida que aumenta el tamaño del conjunto de datos. La tabla muestra los pros y los contras de otros modelos.
Pros | Contras |
---|---|
|
|