Propriétés du tKMeansModel pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tKMeansModel s'exécutant dans le framework de Jobs Spark Batch.
Le composant tKMeansModel Spark Batch appartient à la famille Apprentissage automatique.
Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Basic settings
Vector to process |
Sélectionnez la colonne d'entrée utilisée pour fournir les vecteurs des caractéristiques. Très souvent, cette colonne est la sortie des calculs de pré-traitement des caractéristiques effectués par le tModelEncoder. |
Save the model on file system |
Cochez cette case pour stocker le modèle dans un système de fichiers donné. Sinon, le modèle est stocké dans la mémoire. Le bouton pour parcourir votre système ne fonctionne pas en mode Local de Spark. Si vous utilisez le mode Yarn ou Standalone de Spark, assurez-vous d'avoir correctement configuré la connexion dans un composant de configuration au sein du même Job, comme le tHDFSConfiguration. |
Number of clusters (K) |
Saisissez le nombre de clusters dans lesquels vous souhaitez que le tKMeansModel regroupe les données. Généralement, un grand nombre de clusters peut diminuer le nombre d'erreurs dans les prédictions mais augmente le risque de surapprentissage. Il est donc recommandé de saisir un nombre raisonnable basé sur le nombre de clusters potentiels que vous pensez que peuvent contenir les données à traiter, par exemple en les observant. |
Set distance threshold of the convergence (Epsilon) |
Cochez cette case et, dans le champ Epsilon qui s'affiche, saisissez la distance de convergence à utiliser. Le modèle d'apprentissage est considéré comme terminé lorsque tous les centres des clusters ont effectué un déplacement inférieur à cette distance. Si vous laissez cette case décochée, la distance de convergence par défaut, 0.0001, est utilisée. |
Set the maximum number of runs |
Cochez cette case et, dans le champ Maximum number of runs qui s'affiche, saisissez le nombre d'itérations que vous souhaitez que le Job effectue pour apprendre le modèle. Si vous laissez cette case décochée, la valeur par défaut, 20, est utilisée |
Set the number of parallelized runs |
Ce paramètre n'est plus disponible à partir de la version 3.0 d'Apache Spark. Cochez cette case et, dans le champ Number of parallelized runs, saisissez le nombre d'itérations que vous souhaitez que le Job exécute en parallèle. Si vous laissez cette case décochée, la valeur par défaut, 1, est utilisée Cela signifie que les itérations seront exécutées successivement. Ce paramètre vous permet d'optimiser l'utilisation de vos ressources pour le calcul mais n'impacte pas les performances des prédictions du modèle. |
Initialization function |
Sélectionnez le mode à utiliser pour sélectionner les points comme centres initiaux des clusters.
|
Set the number of steps for the initialization |
Cochez cette case et, dans le champ Steps qui s'affiche, saisissez le nombre de processus d'initialisation à exécuter pour un résultat d'initialisation optimal. Si vous laissez cette case décochée, la valeur par défaut 5 est utilisée. 5 processus sont presque toujours suffisants pour que le mode K-Means|| obtienne un résultat optimal. |
Define the random seed |
Cochez cette case et, dans le champ Seed qui s'affiche, saisissez la graine à utiliser pour l'initialisation des centres des clusters. |
Advanced settings
Display the centers after the processing |
Cochez cette case pour écrire en sortie les vecteurs des centres des clusters dans la console de la vue Run. Cette fonctionnalité est utile lorsque vous devez comprendre comment les centres des clusters se déplacent durant le processus d'apprentissage de votre modèle K-Means. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. Vous pouvez accélérer le processus d'apprentissage en ajustant les conditions d'arrêt, comme le nombre maximal d'exécutions ou la distance de convergence. Cependant, si l'apprentissage s'arrête trop tôt, cela peut impacter ses performances. |
Évaluation du modèle |
Les paramètres que vous devez configurer sont des paramètres libres. Leur valeur peut être fournie par des essais, des suppositions empiriques ou autres. Ils n'ont aucune valeur optimale applicable pour les ensembles de données. Vous devez effectuer un apprentissage pour le modèle de relation que vous générez avec différents jeux de valeurs de paramètres, jusqu'à ce que vous obteniez le meilleur résultat d'évaluation. Cependant, vous devez écrire vous-même le code d’évaluation, afin de noter votre modèle avec des scores. |