Configurer le Job
Procédure
- Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tMatchPredict et un tFileOutputDelimited.
- Reliez le composant tMatchPredict au tFileOutputDelimited à l'aide d'un lien Main.
- Reliez le composant tMatchPredict au tFileOutputDelimited à l'aide d'un lien Suspect duplicates.
- Vérifiez que vous avez défini la connexion au cluster Spark et activé les points de validation dans la vue Run > Spark Configuration comme décrit dans Calcul de paires suspectes et d'un échantillon suspect à partir de données source.