Entendimiento de los algoritmos del modelo

Un algoritmo es una instrucción matemática que produce un modelo. Toma unos datos de entrada, su conjunto de datos, y produce un resultado de salida, el modelo. Cada algoritmo tiene sus puntos fuertes y débiles.

Cuando elige un objetivo, Qlik Predict selecciona automáticamente los mejores algoritmos para ese caso de uso. El objetivo determina qué tipo de algoritmos utilizar.

Los algoritmos que mejor funcionan con problemas de clasificación binarios y multiclase se utilizan cuando:

El objetivo solo tiene dos valores únicos posibles, por ej. "¿Cancelará un cliente su suscripción?": Sí o No.
El objetivo es una cadena de caracteres con entre tres y diez valores únicos. Por ejemplo, decidir la combinación óptima de campañas cuyo objetivo sea uno de los siguientes: "rojo", "azul", "verde" o "amarillo".

Los algoritmos que mejor funcionan con problemas de regresión se utilizan si el objetivo es una columna numérica. Predecir cuánto comprará un cliente es un ejemplo de problema de regresión.

Algoritmos para problemas de clasificación binaria y multiclase

Qlik Predict utiliza los algoritmos siguientes para los problemas de clasificación binaria y multiclase:

Clasificación CatBoost
Regresión neta elástica
Gaussian Naive Bayes
Regresión Lasso
Clasificación LightGBM
Regresión logística
Clasificación Random Forest
Clasificación XGBoost

Algoritmos para problemas de regresión

Qlik Predict utiliza los siguientes algoritmos para los problemas de regresión:

Regresión CatBoost
Regresión LightGBM
Regresión lineal
Regresión Random Forest
Regresión SGD
Regresión XGBoost

Algoritmos para problemas de series temporales

Qlik Predict utiliza los siguientes algoritmos para problemas de series temporales:

DeepAR para series temporales
Mezclador de series temporales
Codificador denso de series temporales

Diferentes tipos de modelos

Los tipos de modelos se pueden dividir en modelos de regresión, conjuntos, modelos de series de tiempo y otros tipos de modelos de aprendizaje automático.

Modelos de regresión

Los modelos de regresión, o modelos lineales generales, son modelos que buscan tendencias a lo largo del dominio de cada variable de forma independiente entre sí. Al igual que la ecuación algebraica y = mx+b, el algoritmo busca elegir una m y una b que proporcionarán la mayor exactitud posible, en promedio, para cada valor x e y. En general, se trata del mismo concepto cuando hay más de una variable. La regresión lineal y la regresión logística son ejemplos de modelos de regresión para problemas de regresión y problemas de clasificación, respectivamente.

En los problemas de clasificación, el resultado del modelo de regresión es la probabilidad de que la muestra sea la clase positiva. Esto significa que y es igual a la probabilidad y no a un valor real.

Las regresiones son buenas para encontrar tendencias lineales en los datos, pero a veces hay una relación que no es lineal. Para que una regresión pueda ajustarse bien a un patrón no lineal, es necesario transformar los datos antes de entrenar el modelo. El beneficio de una sólida comprensión de las relaciones lineales es que las relaciones lineales generalmente funcionan mejor con extrapolación. La tabla muestra los pros y contras de los modelos de regresión.

Ventajas	Contras
Bueno para extrapolar Bueno para encontrar tendencias lineales a variables independientes Bueno con grandes datos de la misma población Sencillo de entender	Deficiente en la explotación de patrones entre variables Deficiente para ajustar tendencias no lineales A veces demasiado simplista

Combinar modelos

Los conjuntos se producen cuando se combinan varios modelos. Esto podría compararse con un grupo de personas que están votando con diferentes antecedentes y se utiliza el voto promedio para decidir. Random Forest y XGBoost son ejemplos de modelos de conjuntos.

Los conjuntos pueden resolver tanto problemas de regresión como problemas de clasificación. Son buenos para encontrar relaciones no lineales y descubrir cómo las interacciones entre las variables afectan al objetivo. Aunque los conjuntos son buenos para aprender los patrones dentro del rango de datos en el que se entrenan, se desempeñan mal en la predicción de valores fuera del rango que han visto. La tabla enumera los pros y los contras de los modelos de conjunto.

Ventajas	Contras
Bueno para explotar patrones entre variables Bueno para encontrar tendencias no lineales Bueno con grandes datos de la misma población	Deficiente para extrapolar No es tan fácil de interpretar

Modelos de series de tiempo

Los modelos de series de tiempo se entrenan con algoritmos de aprendizaje profundo que utilizan aceleración por GPU y métodos basados en redes neuronales. Estos modelos se entrenan para producir predicciones correspondientes a fechas y horas específicas. Los modelos de series de tiempo admiten predicciones que implican objetivos multivariante, así como covariables estáticas, pasadas y futuras.

Los modelos de series temporales requieren gran cantidad de potencia informática.

Otros tipos de modelos

Otros tipos de modelos incluyen todos los demás tipos de modelos. Entre los ejemplos se incluyen Vecinos más cercanos y Gaussian Naive Bayes. Estos tipos de modelos generalmente intentan crear una nueva representación espacial de los datos, a menudo creando algún tipo de métrica de distancia que mide las diferencias entre dos registros. Pueden servir para manejar tendencias no lineales, pero a nivel computacional son mucho más costosos a medida que aumenta el tamaño del conjunto de datos. La tabla muestra los pros y los contras de otros modelos.

Ventajas	Contras
Bueno para explotar patrones entre variables Bueno para encontrar tendencias no lineales	Deficiente para extrapolar Computacionalmente más costoso en conjuntos de datos extensos

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios