SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Générer le modèle de rapprochement

Procédure

Double-cliquez sur le tMatchModel pour afficher sa vue Basic settings et définir ses propriétés.
Dans la table Matching Key, cliquez sur le bouton [+] pour ajouter des lignes à la table. Sélectionnez les colonnes sur lesquelles vous souhaitez baser le calcul du rapprochement.
La colonne Original_Id est ignorée dans le calcul du modèle de rapprochement.
Dans la liste matching label column, sélectionnez la colonne contenant les libellés ajoutés aux enregistrements suspects.
Cochez la case Save the model on file system et, dans le champ Folder, configurez le chemin d'accès au dossier local dans lequel vous souhaitez générer les fichiers de rapprochement.
Cliquez sur Advanced settings et configurez les paramètres suivants :
1. Configurez le nombre maximum de jetons à utiliser dans la comparaison phonétique, dans le champ correspondant.
2. Dans le champ Random Forest hyper parameters tuning, saisissez les plages et la profondeur des arbres de décision que vous souhaitez construire.
  Ces paramètres sont importants pour la précision du modèle.
3. Laissez les autres paramètres pas défaut.
Appuyez sur F6 pour exécuter le Job et générer le modèle de rapprochement dans le dossier de sortie.

Résultats

Vous pouvez utiliser ce modèle avec le composant tMatchPredict afin de libeller tous les doublons calculés par le tMatchPairing.

Pour plus d'informations, consultez Libeller des paires suspectes avec des libellés assignés.

Pour plus d'informations, consultez la documentation en ligne concernant les libellés des paires suspectes sur Talend Help Center (https://help.talend.com (uniquement en anglais)).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici