Configurer le Job
Avant de commencer
-
Vous devez avoir généré les paires de données suspectes en utilisant le composant tMatchPairing.
-
Vous devez avoir ajouté un libellé à côté du second enregistrement dans chaque paire suspecte pour indiquer s'il est un enregistrement en doublon ou non ou s'il est un possible doublon :
480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;; 480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES 425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;; 422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO
Les libellés utilisés dans cet exemple sont YES et NO, mais vous pouvez utiliser les libellés de votre choix, autant que vous souhaitez.
Procédure
- Déposez les composants suivants situés dans la Palette dans l'espace de modélisation graphique : un tFileInputDelimited et un tMatchModel.
- Reliez les composants à l'aide d'un lien .
- Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Calcul de paires suspectes et d'un échantillon suspect à partir de données source. comme décrit dans