Configurer le Job
Avant de commencer
-
Vous devez avoir généré les paires de données suspectes en utilisant le composant tMatchPairing.
-
Vous devez avoir ajouté un libellé à côté du second enregistrement dans chaque paire suspecte pour indiquer s'il est un enregistrement en doublon ou non ou s'il est un possible doublon :
480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;; 480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES 425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;; 422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO
Les libellés utilisés dans cet exemple sont YES et NO, mais vous pouvez utiliser les libellés de votre choix, autant que vous souhaitez.
Vous pouvez consulter un exemple de calcul de paires suspectes et d'échantillon suspect à partir d'une source de données dans Talend Help Center (https://help.talend.com (uniquement en anglais)).
Procédure
- Déposez les composants suivants situés dans la Palette dans l'espace de modélisation graphique : un tFileInputDelimited et un tMatchModel.
- Reliez les composants à l'aide d'un lien .
- Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Calcul de paires suspectes et d'un échantillon suspect à partir de données source. comme décrit dans
- Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Talend Help Center (https://help.talend.com (uniquement en anglais)). . Pour plus d'informations concernant la sélection du mode Spark, consultez la documentation sur