Nozioni sugli algoritmi dei modelli

Un algoritmo è una ricetta matematica che produce un modello. Prende un input, il set di dati dell'utente, e produce un output, il modello. Ogni algoritmo ha sia punti di forza sia punti deboli.

Quando si sceglie un target, AutoML seleziona automaticamente gli algoritmi migliori per il caso d'uso. Il target determina il tipo di algoritmi da utilizzare.

Gli algoritmi che funzionano meglio con problemi di classificazione binaria e multiclasse vengono utilizzati quando:

Il target ha solo due valori unici, come nel caso di "Un cliente cancellerà la sua sottoscrizione?": Sì o No.
Il target è un valore stringa con un numero di valori unici compreso tra tre e dieci. Ad esempio, determinare il mix ottimale di campagne con un target tra "rosso", "blu", "verde" o "giallo".

Gli algoritmi che funzionano meglio con i problemi di regressione vengono utilizzati se il target è una colonna numerica. La previsione di quanto acquisterà un cliente è un esempio di problema di regressione.

Algoritmi per problemi di classificazione binaria e multiclasse

AutoML utilizza i seguenti algoritmi per problemi di classificazione binaria e multiclasse:

Classificazione CatBoost
Regressione Elastic Net
Bayesiano ingenuo gaussiano
Regressione LASSO
Classificazione LightGBM
Regressione logistica
Classificazione Random Forest
Classificazione XGBoost

Algoritmi per problemi di regressione

AutoML utilizza i seguenti algoritmi per i problemi di regressione:

Regressione CatBoost
Regressione LightGBM
Regressione lineare
Regressione Random Forest
Regressione SGD
Regressione XGBoost

Diversi tipi di modelli

I tipi di modelli possono essere suddivisi in modelli di regressione, ensemble e altri tipi di modelli di machine learning.

Modelli di regressione

I modelli di regressione, o modelli lineari generali, sono modelli che cercano tendenze lungo il dominio di ogni variabile indipendentemente l'una dall'altra. Come l'equazione algebrica y = mx+b, l'algoritmo cerca di scegliere una m e una b che producano la massima accuratezza, in media, per ogni valore di x e y. In generale il concetto rimane invariato anche in presenza di più variabili. La regressione lineare e la regressione logistica sono esempi di modelli di regressione rispettivamente per problemi di regressione e classificazione.

Per i problemi di classificazione, l'output del modello di regressione è la probabilità che il campione appartenga alla classe positiva. Ciò significa che y equivale alla probabilità e non a un valore effettivo.

Le regressioni sono ottime per trovare tendenze lineari nei dati, ma a volte risulta presente una relazione non lineare. Affinché una regressione possa adattarsi bene a un modello non lineare, è necessaria una trasformazione dei dati prima di addestrare il modello. Il vantaggio della forte comprensione delle relazioni lineari è che le relazioni lineari sono generalmente le migliori per quanto riguarda l'estrapolazione. La tabella elenca i pro e i contro dei modelli di regressione.

Pro	Contro
Buono per estrapolare Buono per trovare tendenze lineari alle variabili indipendenti Buono con dati di grandi dimensioni provenienti dalla stessa popolazione Semplice da capire	Scarso nello sfruttare i modelli tra le variabili Scarso nell'adattarsi a tendenze non lineari A volte troppo semplicistico

Modelli di ensemble

Gli ensemble si verificano quando più modelli vengono combinati tra loro. Ciò potrebbe essere paragonato a un gruppo di persone con background diversi che votano e utilizzano il voto medio per decidere. Random Forest e XGBoost sono esempi di modelli d'ensemble.

Gli ensemble possono risolvere problemi sia di regressione sia di classificazione. Sono utili per trovare relazioni non lineari e scoprire come le interazioni tra le variabili influenzino il target. Sebbene gli ensemble riescano ad apprendere bene i modelli all'interno dell'intervallo di dati su cui sono stati addestrati, hanno scarse prestazioni nella previsione di valori al di fuori dell'intervallo visualizzato. La tabella elenca i pro e i contro dei modelli ensemble.

Pro	Contro
Buono nello sfruttare i modelli tra le variabili Buono nell'individuare tendenze non lineari Buono con dati di grandi dimensioni provenienti dalla stessa popolazione	Scarso nell'estrapolazione Non così semplice da interpretare

Altri tipi di modello

Altri tipi di modello includono tutti gli altri tipi di modello. Tra gli esempi vi sono i Nearest Neighbors e i Gaussian Naive Bayes. Questi tipi di modelli cercano in genere di creare una nuova rappresentazione spaziale dei dati, spesso creando un tipo di metrica di distanza che misura la distanza tra due record. Possono essere validi nel gestire tendenze non lineari, ma sono molto più costosi dal punto di vista computazionale con l'aumentare delle dimensioni del set di dati. La tabella elenca i pro e i contro di altri modelli.

Pro	Contro
Buono nello sfruttare i modelli tra le variabili Buono nell'individuare tendenze non lineari	Scarso nell'estrapolazione Più costoso a livello computazionale su set di dati più grandi

Hai trovato utile questa pagina?

Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!

Lascia qui il tuo feedback