Configurer le Job

Avant de commencer

Vous devez avoir généré les paires de données suspectes en utilisant le composant tMatchPairing.

Vous devez avoir ajouté un libellé à côté du second enregistrement dans chaque paire suspecte pour indiquer s'il est un enregistrement en doublon ou non ou s'il est un possible doublon :

480060609;DFSS_AgencySiteLies_2012.csv;Catholic Charities of the Archdiocese of Chicago St. Joseph;4800 S. Paulina; st. joseph_1;;
480060609;purple_binder_early_childhood.csv;Catholic Charities Chicago - St. Joseph;4800 S Paulina Street; st. joseph_1;0.8058642705131237;YES
425760624;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS GOLDBLATT, NATHAN R.;4257 W ADAMS; r._20;;
422560653;chapin_dfss_providers_2011_070212.csv;CHICAGO PUBLIC SCHOOLS ROBINSON, JACKIE R.;4225 S LAKE PARK AVE; r._20;0.8219437219200757;NO

Les libellés utilisés dans cet exemple sont YES et NO, mais vous pouvez utiliser les libellés de votre choix, autant que vous souhaitez.

Vous pouvez consulter un exemple de calcul de paires suspectes et d'échantillon suspect à partir d'une source de données dans Talend Help Center (https://help.talend.com (uniquement en anglais)).

Procédure

Déposez les composants suivants situés dans la Palette dans l'espace de modélisation graphique : un tFileInputDelimited et un tMatchModel.
Reliez les composants à l'aide d'un lien Row > Main.
Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Run > Spark Configuration comme décrit dans Calcul de paires suspectes et d'un échantillon suspect à partir de données source.
Vérifiez que vous avez défini la connexion au cluster Spark dans la vue Run > Spark Configuration. Pour plus d'informations concernant la sélection du mode Spark, consultez la documentation sur Talend Help Center (https://help.talend.com (uniquement en anglais)).

Résultats

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici