Propriétés du tGenKey pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tGenKey s'exécutant dans le framework de Jobs Spark Batch.
Le composant tGenKey Spark Batch appartient à la famille Qualité de données.
Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job. |
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
|
Cliquez sur l'icône d'import pour importer des clés de bloc depuis les règles de rapprochement définies et sauvegardées dans le référentiel du Studio Talend. Lorsque vous cliquez sur l'icône d'import, un assistant Match Rule Selector s'ouvre pour vous permettre d'importer vos clés de bloc depuis les règles de rapprochement listées dans le référentiel du Studio Talend et les utiliser dans votre Job. Cliquez sur l'icône d'import pour importer des clés de bloc depuis les règles de rapprochement définies et sauvegardées dans le référentiel du Studio Talend. Pour plus d'informations, consultez Import de règles de mise en correspondance depuis le référentiel du Studio Talend. |
Column |
Sélectionnez les colonnes du flux principal sur lesquelles vous souhaitez définir certains algorithmes pour définir la clé fonctionnelle. Note InformationsRemarque : Lorsque vous sélectionnez une colonne de dates sur laquelle appliquer un algorithme ou un algorithme de rapprochement, vous pouvez choisir ce que vous souhaitez comparer dans le format de date.
Par exemple, si vous souhaitez comparer uniquement l'année, attribuez le type Date à la colonne concernée dans le schéma du composant puis saisissez "yyyy" dans le champ Date Pattern. Le composant convertit le format de date en une chaîne de caractères, selon le modèle défini dans le schéma, avant de comparer les chaînes de caractères. |
Pre-Algorithm |
Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste : Remove diacritical marks : supprime tout signe diacritique. Remove diacritical marks and lower case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne. Remove diacritical marks and upper case : supprime tout signe diacritique et convertit en minuscules avant de générer le code de la colonne. Lower case : convertit le champ en lettres minuscules avant d'appliquer l'algorithme clé. Upper case : convertit le champ en lettres majuscules avant d'appliquer l'algorithme clé. Add left position character : vous permet d'ajouter un caractère à gauche de la colonne. Add right position character : vous permet d'ajouter un caractère à droite de la colonne. |
Value |
Définissez la valeur de l'algorithme, là où il peut être appliqué. |
Algorithm |
Sélectionnez l'algorithme adéquat dans la liste : First character of each word : inclut dans la clé fonctionnelle le premier caractère de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize. First N characters of each word : inclut dans la clé fonctionnelle les N premiers caractères de chaque mot dans la colonne. En présence de caractères japonais dans les données d'entrée, le texte d'entrée doit être tokenisé. Pour plus d'informations, consultez le composant tJapaneseTokenize. First N characters of the string : inclut dans la clé fonctionnelle les N premiers caractères de la chaîne de caractères. Last N characters of the string : inclut dans la clé fonctionnelle les N derniers caractères de la chaîne de caractères. First N consonants of the string : inclut dans la clé fonctionnelle les N premières consonnes de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés. First N vowels of the string : inclut dans la clé fonctionnelle les N premières voyelles de la chaîne de caractères. Les caractères japonais et chinois ne sont pas supportés. Pick characters : inclut dans la clé fonctionnelle les caractères situés à une position fixe (correspondant au chiffre défini/à la plage définie). Exact : inclut dans la clé fonctionnelle la chaîne de caractères complète. Substring(a,b) : inclut dans la clé fonctionnelle un caractère selon l'index défini. Soundex code : génère un code selon un algorithme anglais standard. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés. Metaphone code : génère un selon la prononciation des caractères. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés. Double-metaphone code : génère un code selon la prononciation des caractères en utilisant une nouvelle version de l'algorithme phonétique Metaphone, produisant des résultats plus précis que l'algorithme original. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés. Fingerprint key : génère une clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
nGramkey : cet algorithme est similaire à la méthode fingerPrintkey décrite ci-dessus. Au lieu d'utiliser des jetons séparés par des espaces, il utilise n-grammes, où n peut être spécifié par l'utilisateur ou l'utilisatrice. Cette méthode génère la clé fonctionnelle d'une valeur d'une chaîne de caractères via la séquence suivante :
Note InformationsRemarque :
Si la colonne sur laquelle vous souhaitez utiliser l'algorithme nGramkey est susceptible de contenir des données uniquement composées d'un 0 ou d'un 1, vous devez filtrer ces données avant de générer la clé fonctionnelle. Ainsi, vous évitez potentiellement de comparer des enregistrements à ceux n'étant pas des possibles correspondances. Cologne phonetics : un algorithme phonétique Soundex optimisé pour l'allemand. Il encode une chaîne de caractères en une valeur phonétique de Cologne. Ce code représente la chaîne de caractères qui sera incluse dans la clé fonctionnelle. Les caractères japonais et chinois ne sont pas supportés. |
Value |
Définissez la valeur de l'algorithme, là où il peut être appliqué. Si vous ne définissez pas de valeur pour les algorithmes qui en ont besoin, le Job s'exécute avec une erreur de compilation. |
Post-Algorithm |
Au besoin, sélectionnez l'algorithme de correspondance adéquat dans la liste : Use default value (chaîne de caractères) : vous permet de choisir une chaîne de caractères pour remplacer des données null ou vides. Add left position character : vous permet d'ajouter un caractère à gauche de la colonne. Add right position character : vous permet d'ajouter un caractère à droite de la colonne. |
Value |
Définissez la valeur de l'option, là où elle est applicable. |
Show help |
Cochez cette case pour afficher les instructions concernant la définition des paramètres des algorithmes/options. |
Global Variables
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé comme étape intermédiaire. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |