Accéder au contenu principal Passer au contenu complémentaire

Définir et créer une clé de rapprochement à l'aide de l'algorithme T-Swoosh

Créer une clé de rapprochement

Procédure

  1. Dans le menu Matching key (Clé de rapprochement), cliquez sur Matching algorithm (Algorithme de rapprochement) en haut à droite et sélectionnez T-Swoosh.
  2. Dans la section Matching algorithm (Algorithme de rapprochement), cliquez sur Add new item (Ajouter un élément) pour ajouter une règle et définir les critères utilisés lors du rapprochement d'enregistrements de données.
    • Match Key Name : saisissez le nom de votre choix pour la clé de rapprochement.

    • Input Column : sélectionnez la colonne d'entrée sur laquelle appliquer la clé de rapprochement.
    • Matching Function : sélectionne dans la liste le type de rapprochement à effectuer. Sélectionnez Custom si vous souhaitez utiliser un algorithme externe personnalisé.

    • Customer Matcher : cet élément est utilisable uniquement avec la fonction de consolidation Custom. Parcourez votre système et sélectionnez le fichier Jar de l'algorithme personnalisé.

    • Threshold : spécifie le score de correspondance (entre 0 et 1) au-dessus duquel deux valeurs sont considérées comme correspondantes.

    • Confidence Weight : configure un poids numérique (entre 1 et 10) sur la colonne que vous souhaitez utiliser comme clé de rapprochement. Cette valeur est utilisée pour donner plus ou moins d'importance à certaines colonnes lors du rapprochement.

    • Handle Null : spécifie comment traiter les enregistrements de données contenant des valeurs nulles.
      • nullMatchNull : si les deux enregistrements contiennent des valeurs nulles, ils sont considérés comme correspondance.

      • nullMatch None : si un enregistrement contient une valeur nulle, les enregistrements ne sont pas considérés comme une correspondance.

      • nullMatch All : si un enregistrement contient une valeur nulle, les enregistrements sont considérés comme une correspondance.

    • Survivorship Function : sélectionne la façon dont deux enregistrements similaires seront fusionnées, à partir de la liste déroulante.
      • Concatenate : ajoute le contenu du premier enregistrement et le contenu du second.

        Par exemple, Bill et William sont fusionnés en BillWilliam. Dans le champ Parameter, vous pouvez définir le séparateur à utiliser pour séparer les valeurs.

      • Prefer False (for booleans) : configure toujours les booléens à True dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont False.

      • Prefer False (for booleans) : configure toujours les booléens à False dans l'enregistrement fusionné, sauf si tous les booléens des enregistrements source sont True.

      • Most common : valide la valeur de champ la plus fréquente dans chaque groupe de doublons.

      • Most recent or Most ancient : le premier valide la valeur de date la plus récente et le second valide la valeur de date la plus ancienne, dans chaque groupe de doublons. La colonne de référence Reference column doit être de type Date.

      • Longest or Shortest : le premier valide la valeur de champ la plus longue et le second valide la valeur de champ la plus courte, dans chaque groupe de doublons.

      • Largest or Smallest : le premier valide la plus grande valeur numérique plus grand numéro et le second la plus petite valeur numérique, dans chaque groupe de doublons.

        Note InformationsAvertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
      • Most trusted source : prend les données provenant de la source définie comme la plus fiable. La source données la plus fiable est définie dans le champ Parameter.

    • Reference column : si vous avez défini Survivor Function sur Most recent ou Most ancient, cet élément est utilisé pour sélectionner la colonne de référence.
    • Parameter : pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

    • Parameter : pour la fonction de consolidation Most trusted source, cet élément et utilisé pour configurer le nom de la source de données à utiliser comme base de l'enregistrement maître. Pour la fonction de consolidation Concatenate, cet élément est utilisé pour spécifier un séparateur à utiliser pour concaténer les données.

  3. Dans le champ Match threshold, saisissez le seuil de probabilité.

    Deux enregistrements de données correspondent lorsque leur probabilité est supérieure à cette valeur.

    Dans le champ Confident match threshold, configurez une valeur numérique comprise entre la valeur du champ Match threshold et 1.

  4. Pour définir comment consolider les enregistrements de données pour certaines colonnes, cliquez sur Matching algorithm (Algorithme de rapprochement) en haut à droite.
  5. Dans la section Survivorship Rules For Columns (Règles de consolidation pour les colonnes), cliquez sur Add new item (Ajouter un élément) pour ajouter une règle.
    1. Dans la colonne Input Column (Colonne d'entrée), saisissez le nom de la colonne sur laquelle appliquer la règle de consolidation.
    2. Dans la colonne Survivorship Function (Fonction de consolidation), sélectionnez dans la liste comment fusionner deux enregistrements similaires.
    3. Si vous avez sélectionné Most trusted source (Source la plus fiable) ou Concatenate (Concaténation) dans la liste Survivorship Function (Fonction de consolidation), configurez un paramètre (Parameter).
      • Pour Most trusted source (Source la plus fiable), saisissez le nom de la source de données à utiliser comme base de l'enregistrement maître.
      • Pour Concatenate (Concaténation) : définissez un séparateur à utiliser pour la concaténation des données.

    Si vous spécifiez la fonction de consolidation pour une clé de rapprochement dans la section Matching rule (Règle de rapprochement) et que vous spécifiez la fonction de consolidation pour la clé de rapprochement en tant que colonne d'entrée dans la section Survivorship Rules for columns (Règles de consolidation pour les colonnes), la fonction de consolidation sélectionnée dans la section Matching rule (Règle de rapprochement) est appliquée sur la colonne.

  6. Pour définir comment consolider les rapprochements pour certains types de données : Boolean (Booléen), Date, Number (Nombre) et String (Chaîne), cliquez sur Add new item (Ajouter un élément) dans la section Default Survivorship Rules (Règles de consolidation par défaut).
    1. Dans la colonne Data Type, sélectionnez dans la liste le type de données correspondant.
    2. Dans la colonne Survivorship Function, sélectionnez dans la liste comment deux enregistrements similaires sont fusionnés. Selon le type de données, seuls certains choix peuvent être cohérents.
      Note InformationsAvertissement : Assurez-vous de sélectionner Largest ou Smallest comme fonction de consolidation lorsque la clé de rapprochement est de type Numeric.
    3. Si vous avez sélectionné Most trusted source (Source la plus fiable) ou Concatenate (Concaténation) dans la liste Survivorship Function (Fonction de consolidation), configurez un paramètre (Parameter).
      • Pour Most trusted source (Source la plus fiable), saisissez le nom de la source de données à utiliser comme base de l'enregistrement maître.
      • Pour Concatenate (Concaténation) : définissez un séparateur à utiliser pour la concaténation des données.

    Si vous spécifiez la fonction de consolidation pour une colonne dans la zone Survivorship Rules For Columns (Règles de consolidation pour les colonnes) et que vous spécifiez la fonction de consolidation pour le type de données de la colonne, dans la zone Default Survivorship Rules (Règles de consolidation par défaut), la fonction de consolidation sélectionnée dans Survivorship Rules For Columns (Règles de consolidation pour les colonnes) est appliquée sur la colonne.

    Si vous ne spécifiez pas de comportement pour un ou plusieurs type(s) de données, le comportement par défaut (fonction de consolidation Most common) est appliqué, c'est-à-dire que la valeur la plus fréquente de champ dans chaque groupe de doublons est validée.

  7. Cliquez sur Save analysis (Enregistrer l'analyse) dans le coin supérieur droit.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.