Gestione dei dati di testo libero
Per essere precisi di utilità in un modello, il testo libero (per esempio i dati data delle stringhe di testo inseriti nei moduli) richiede l'elaborazione speciale delle tramite gli algoritmi di machine learning. In Qlik Predict, l'elaborazione di testo libero è una modalità di ingegneria automatica delle funzioni. Dal punto di vista tecnico, l'elaborazione utilizza il metodo TF-IDF (frequenza dei termini - frequenza del documento inversa).
Qlik Predict supporta l'elaborazione separata per le funzioni con dati di testo libero in inglese.
Se una colonna nei dati di addestramento contiene del testo libero, gli viene assegnato il tipo di funzione testo libero. Può anche essere utilizzata come funzione categorica, sebbene sia fortemente sconsigliato se ha una cardinalità elevata (troppi valori univoci).
È possibile selezionare un massimo di tre colonne da utilizzare come funzioni di testo libero in un esperimento.
Requisiti per la codifica di testo libero
Per la codifica corretta come testo libero di una colonna contenente testo libero, deve soddisfare due requisiti. Questi requisiti vengono verificati a livelli differenti della creazione dell'esperimento.
I requisiti sono i seguenti:
-
La colonna deve avere una lunghezza di caratteri media di 50 o più caratteri.
-
La colonna deve avere una lunghezza di parole media di cinque o più parole.
Trattamento di una funzione come testo libero
Il processo di trattamento di una funzione come testo libero è il seguente:
-
Quando si selezionano i dati di addestramento, Qlik Predict identifica le funzioni che possono essere elaborate come testo libero. Sono contrassegnate con le informazioni Testo libero possibile nella visualizzazione schema gli verrà assegnato il tipo di funzione di testo libero.
-
Una volta eseguita la versione v1 dell'esperimento, viene completata un'altra analisi. A questo punto, le funzioni contrassegnate inizialmente come possibile testo libero potrebbero essere rilevate come inutilizzabili come funzioni di testo libero.
Se le funzioni che non sono utilizzabili come testo libero hanno cardinalità elevata, si consiglia di deselezionarle per escluderle dall'esperimento. Queste funzioni, quando sono trattate come categoriche, non apportano nessun valore per le prestazioni del modello.
Se le funzioni che non sono utilizzabili come testo libero non hanno cardinalità elevata, è possibile includerle nell'esperimento facendo clic su Tratta come categorico o cambiando il Tipo di funzione da testo libero a categorico. Se lascia il tipo di funzione come testo libero, questo verrà considerato anche a livello interno come categorico e con codifica impact encoding.
Per i dettagli completi sulla pre-elaborazione, vedere Preparazione e trasformazione automatica dei dati.
Per maggiori informazioni su ogni informazione strategica visualizzata nella visualizzazione schema, vedere Visualizzazione delle informazioni strategiche sui dati dell'addestramento.
L'utilizzo della funzione testo libero come destinazione dell'esperimento
In rari casi, è possibile selezionare una funzione di testo libero come destinazione. Se la funzione soddisfa tutti i requisiti per la codifica di testo libero e contiene tra due e dieci valori univoci, può essere utilizzata come destinazione. In questi scenari, l'esperimento viene definito come una classificazione binaria standard o come un problema di classificazione multiclasse.
Funzioni di testo libero nelle previsioni
Per conoscere i requisiti per l'esecuzione di previsioni con un modello distribuito addestrato con funzionalità di testo libero, vedere Utilizzo delle funzioni di testo libero nelle previsioni.
Considerazioni
L'inclusione di funzionalità di testo libero nell'esperimento aumenta la complessità dell'esperimento e i processi richiesti per eseguirlo. È possibile che i grafici Importanza della permutazione non siano disponibili per i modelli risultanti se i dati del testo libero sono abbastanza complessi.
Risoluzione dei problemi
L'utilizzo di dati di testo libero per addestrare un modello può essere un processo con impatto elevato sulle risorse. Quando si includono delle colonne di testo libero che includono un gran numero di parole univoche come funzioni, si potrebbe riscontrare un errore.
Ecco alcune linee guida per la risoluzione di questi errori:
-
Ridurre il set secondario di dati nel set di dati di addestramento per includere un numero inferiore di righe di testo libero.
-
Rimuovere le funzioni di testo libero che non è necessario includere nell'addestramento del modello.
-
Trattare una o più colonne di testo libero come funzioni categoriche, anziché come testo libero. Notare che questa azione non è consigliata se queste funzioni di testo libero hanno cardinalità elevata.
Limitazioni
-
L'ingegneria delle funzionalità di testo libero automatica è disponibile solo per i set di dati di training entro determinati limiti di dimensione. Per ulteriori informazioni, vedere Dataset di training e limitazioni di profilazione.
-
L'ingegneria delle funzionalità di testo libero automatica non è disponibile per gli esperimenti di serie temporali.