Définir les règles de parsing pour standardiser les données
Procédure
-
Double-cliquez sur le tStandardizeRow pour afficher sa vue Basic settings.
Ce composant vous permet de définir les règles nécessaires pour standardiser le flux de données d'entrée non structuré et de générer la marque, la finition, la couleur et l'unité de mesure, au format XML.
- Dans la liste Column to parse, sélectionnez Long_Description.
- Cochez la case Standardize this field.
-
Définissez vos règles comme suit :
-
Dans la table Conversion rules, cliquez sur le bouton [+] pour ajouter les colonnes nécessaires à la définition des règles.
Ce scénario traite des règles de type Index. Pour des exemples détaillés concernant les autres types de règles définis dans la capture d'écran ci-dessus, consultez les autres scénarios du tStandardizeRow.
- Définissez trois règles : Brand (marque), Range (finition) et Color (couleur).
-
Dans la liste Type, sélectionnez Index et renseignez le champ Value avec les variables de contexte des index générés.
Pour plus d'informations concernant la création et l'utilisation des variables de contexte, consultez Utiliser les contextes et les variables.
-
Dans la liste Search mode, sélectionnez Match exact. Les modes de recherche sont uniquement applicables aux règles Index.
Avec le mode Match exact, vous extrayez du flux d'entrée uniquement les chaînes de caractères correspondant exactement aux chaînes de caractères dans l'index de la marque, la finition et la couleur générées avec le composant tSynonymOutput. Pour plus d'informations concernant les modes de recherche disponibles, consultez Modes de recherche pour les règles d'Index.
-
Dans la table Conversion rules, cliquez sur le bouton [+] pour ajouter les colonnes nécessaires à la définition des règles.
-
Cliquez sur le bouton Generate parser code in Routines afin de générer le code sous le dossier Routines, dans la vue DQ Repository, dans la perspective Profiling.
Cette étape est obligatoire, sinon le Job ne s'exécute pas.
-
Dans la vue Advanced settings, laissez les options par défaut dans la zone Output format.
Le paramètre Max edits for fuzzy match est configuré à 1 par défaut.
- Double-cliquez sur le tLogRow afin de configurer ses propriétés dans la vue Basic settings.
-
Dans la zone Mode, sélectionnez l'option Table (print values in cells of a table).
Ce composant affiche les jetons du flux d'entrée ne pouvant pas être analysés et mis en correspondance par rapport aux chaînes de caractères de l'index.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.