Propriétés du tKMeansStrModel pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tKMeansStrModel s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tKMeansStrModel Spark Streaming appartient à la famille Apprentissage automatique.
Ce composant est disponible dans Talend Real Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Sauvegarder sur le disque |
Cochez cette case pour stocker le modèle de clustering dans un répertoire HDFS spécifié dans le champ Path. Dans ce cas, vous devez saisir l'intervalle de temps (en minutes) à la fin duquel le modèle est sauvegardé. Si vous décochez cette case, votre modèle sera stocké dans la mémoire. |
Path |
Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration. Dans le champ Path, saisissez le répertoire HDFS à utiliser. Ce champ est disponible lorsque vous cochez les cases utilisées pour sauvegarder un modèle ou pour lire un modèle d'un système de fichiers. |
Charger un modèle pré-calculé du disque |
Cochez cette case pour utiliser un modèle K-Means existant dans le répertoire spécifié dans le champ Path. Ceci est le cas d'usage fréquent lorsque vous utilisez le tKMeansStrModel. Dans cette situation, les comportements suivants peuvent être attendus :
Si vous décochez la case Load a precomputed model from disk, le tKMeansStrModel crée un modèle K-Means de zéro. |
Vecteur à traiter |
Sélectionnez la colonne d'entrée utilisée pour fournir les vecteurs des caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder. Cette liste s'affiche lorsque vous avez décoché la case Load a precomputed model from disk ou la case Reuse the model transformation associated with the model. |
Size of your feature vector |
Saisissez la taille des vecteurs de caractéristiques à traiter depuis la colonne sélectionnée dans la liste Vector to process. |
Display the vector size |
Cochez cette case pour afficher les vecteurs de caractéristiques à utiliser dans la console de la vue Run. Cette fonctionnalité ralentit votre Job mais est utile lorsque vous ne connaissez pas la valeur à saisir dans le champ Size of your feature vector. |
Number of clusters (K) |
Saisissez le nombre de clusters dans lesquels vous souhaitez que le composant tKMeansModel mette les données en clusters. Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage. Ce champ s'affiche lorsque vous avez décoché la case Load a precomputed model from disk afin de créer un modèle K-Means de zéro. |
Facteur d'amortissement |
Saisissez le taux d'amortissement (entre 0 et 1) à appliquer pour réduire le poids des points existants par rapport aux nouveaux points entrants dans le processus d'évaluation des nouveaux centres des clusters. Un faible taux d'amortissement signifie une plus grande importance à attacher aux nouvelles données entrantes. Lorsque le taux d'amortissement est de 0, les nouveaux centres des clusters sont entièrement déterminés par les nouveaux points. Lorsque le taux d'amortissement est de 1, les points existants et les nouveaux points entrants sont évalués de manière égale. |
Unité de temps |
Sélectionnez l'unité sur laquelle appliquer le taux de décroissance : point ou ensemble de points (batch). |
Advanced settings
Display the centers after the processing |
Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run. Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. |
Model evaluation |
Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les ensembles de données. Vous devez effectuer un apprentissage pour le modèle de relation que vous générez avec différents jeux de valeurs de paramètres, jusqu'à ce que vous obteniez le meilleur résultat d'évaluation. Cependant, vous devez écrire vous-même le code d’évaluation, afin de noter votre modèle avec des scores. |