Création d'un script de Job pour filtrer des enregistrements de données
Le Job va contenir les composants suivants :
-
un composant tFileInputDelimited pour lire le fichier CSV source contenant des informations sur des personnes. Le fichier source contient cinq colonnes, présentées comme suit :
name;gender;age;city;marriageStatus Van Buren;M;73;Chicago;married Adams;M;40;Albany;single Jefferson;F;66;New York;married Adams;M;9;Albany;- Jefferson;M;30;Chicago;single Carter;F;26;Chicago;married Harrison;M;40;New York;married Roosevelt;F;15;Chicago; Monroe;M;8;Boston;- Arthur;M;20;Albany;married Pierce;M;18;New York;- Quincy;F;83;Albany;married McKinley;M;70;Boston;married Coolidge;M;4;Chicago;- Monroe;M;60;Chicago;single ----- end of file --------
-
un composant tReplicate, pour dupliquer les données d'entrée en deux flux de sortie, dont un affiché dans la console comme données non traitées et l'autre traité par un composant filtrant les colonnes.
-
un composant tFilterColumns, pour supprimer la ou les colonnes souhaitées, marriageStatus.
-
un composant tFilterRow, pour filtrer les deux tables de sortie des données :
-
une table liste tous les hommes âgés entre 10 et 80 ans dont le nom fait moins de neuf caractères.
-
l'autre table liste tous les enregistrements rejetés et affiche un message d'erreur expliquant la raison du rejet de chaque enregistrement.
-
-
trois composants tLogRow : le premier pour afficher les données non traitées, le deuxième pour afficher les enregistrements acceptés et le troisième pour afficher les enregistrements rejetés et les messages d'erreurs correspondants.
-
un composant tJava, pour afficher le résumé des informations.
La procédure présentée ci-dessous explique comment écrire ce script de Job dans l'éditeur de scripts de Jobs, en commençant par l'ajout des composants requis. Pour plus d'informations concernant la création d'un script de Job vide, consultez Créer un script de Job.