Propriétés du tMahoutClustering MapReduce (déprécié)
Ces propriétés sont utilisées pour configurer le tMahoutClustering s'exécutant dans le framework de Jobs MapReduce.
Le composant tMahoutClustering MapReduce appartient à la famille MapReduce.
Ce composant est disponible dans les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Le framework MapReduce est déprécié à partir de la version 7.3 de Talend. Utilisez des Jobs Talend pour Apache Spark afin d'accomplir vos tâches d'intégration.Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Le schéma de sortie du tMahoutClustering contient une colonne en lecture seule, ClusterID. |
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
Fichier HDFS d'entrée |
Parcourez votre système jusqu'au fichier HDFS contenant les données numériques à traiter. |
Field separator |
Saisissez un caractère, une chaîne de caractères ou une expression régulière pour séparer les champs dans les données d'entrée et de sortie. |
Colonnes du cluster |
Dans la colonne Input Column, sélectionnez la (les) colonne(s) du flux principal sur laquelle (lesquelles) définir des algorithmes. Ces colonnes sont utilisées pour calculer les clusters. Vous pouvez ajouter uniquement des colonnes numériques à cette table. |
Type de clustering |
Sélectionnez dans la liste l'algorithme de clustering à utiliser : Canopy : cet algorithme utilise une métrique de distance approchée et deux seuils (Threshold) de distance T 1 et T 2, où T 1 > T 2. Il commence avec un ensemble de points de données dans n'importe quel ordre, prend un point appelé centroïde du cluster et mesure sa distance approchée avec les autres points. Il regroupe les points dont la distance est inférieure ou égale à T 1 dans une Canopy (cluster). Il supprime de l'ensemble principal tous les points dont la distance est inférieure ou égale à T2. Ainsi, les points très proches du centroïde ne sont pas traités. L'algorithme choisit ensuite un deuxième centroïde parmi les points de l'ensemble principal. L'algorithme continue jusqu'à ce que l'ensemble initial soit vide, accumulant ainsi un ensemble de clusters, chacun d'entre eux contenant un ou plusieurs point(s). Un point donné peut se trouver dans plus d'un cluster. Ce type de clustering est souvent utilisé comme étape initiale au sein de techniques de clustering plus rigoureuses, comme le clustering K-Means. En commençant par un clustering de Canopies, le nombre de mesures de distances plus chères peut être considérablement réduit en ignorant des points hors des Canopies initiales. K-Means : il classifie un ensemble de données en un nombre de clusters que vous définissez. L'algorithme choisit k points aléatoires utilisés comme centroïde dans k clusters. L'algorithme associe ensuite chaque point de données appartenant à un jeu de données au centre du cluster le plus proche. Fuzzy K-Means : également appelé Fuzzy C-Means. Cet algorithme appartient à la famille des algorithmes de logique floue. Il fonctionne comme l'algorithme K-Means mais calcule les centres des clusters, à l'aide des probabilités qu'a un point d'appartenir à plusieurs clusters. |
Mesure de la distance |
Sélectionnez dans la liste le type de mesure à utiliser pour le clustering : Euclidean : définit la distance "ordinaire" entre deux points, comme si elle était mesurée par une règle. Manhattan : définit la distance comme le chemin parcouru sur une grille entre deux points. Chebyshev : définit la distance maximale entre deux vecteurs pris sur l'une des dimensions. Cosine : utilise le cosinus de l'angle entre les deux vecteurs représentant les points à comparer. |
Canopy threshold1 |
Seuil de distance T1 utilisé pour l'algorithme Canopy. |
Canopy threshold2 |
Seuil de distance T2 utilisé pour l'algorithme Canopy. |
Nombre de clusters |
Saisissez le nombre maximum de clusters pouvant être générés par un algorithme de clustering. Certains clusters peuvent ne pas contenir de données. |
Itérations max |
Saisissez le nombre maximum d'itérations à effectuer pour un algorithme de clustering. |
Delta de convergence |
Saisissez un taux de convergence pour l'algorithme. Il doit être entre 0.0 et 1.0. Plus le taux est grand, plus l'algorithme est rapide, mais moins les résultats sont précis. |
Flou |
Saisissez le paramètre d'approximation pour l'algorithme Fuzzy K-Means. Il doit être supérieur ou égal à 1.0. Lorsque le paramètre d'approximation est proche de 1, le centre du cluster le plus proche du point a un poids plus important que les autres et l'algorithme est similaire à l'algorithme K-Means. |
Global Variables
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend. |
Utilisation
Règle d'utilisation |
Le tMahoutClustering est déprécié. Vous devez utiliser une JDK 7 pour exécuter correctement les Jobs migrés contenant un tMahoutClustering. Si vous devez exécuter des algorithmes de clustering, il est recommandé de créer un Job Spark Batch et d'utiliser un tKMeansModel à la place, dans ce Job. |