Dédoublonnage des données

Vous pouvez dédoublonner vos données de manière précise à l'aide de la fonction la plus appropriée.

Dédupliquer des valeurs dans des colonnes

Vous pouvez utilisez la fonction Deduplicate rows with identical values pour facilement supprimer les lignes partiellement ou entièrement dupliquées avec d'autres lignes.

Remarque : Cette fonction n'est pas compatible avec les Jobs Spark, avec les exports HDFS ou S3.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans le jeu de données suivant, contenant des informations basiques sur des clients, vous remarquerez que les colonnes firstname et lastname contiennent toutes les deux des valeurs présentes plus d'une fois.

Jeu de données contenant des informations client·es dupliquées.

Jake et Peralta sont des entrées qui, lues séparément, laissent à penser que les colonnes firstname et lastname contiennent des doublons. Cependant, à y regarder de plus près, l'information des lignes 1, 2 et 4 provient de clients différents partageant le même nom ou prénom. La ligne 3 par contre est une vraie copie de la ligne 2, même s'il lui manque également des informations.

Une opération de déduplication sur les deux colonnes, séparément, résulterait en une perte d'informations précieuses sur les clients partageant le même nom ou prénom, vous utiliserez donc la fonction Deduplicate rows with identical values sur ces deux colonnes en même temps. De cette façon, cette fonction ne supprimera que les lignes avec des copies de noms et de prénoms, comme les lignes 2 et 3, mais également d'autres copies potentielles plus loin dans le jeu de données.

Procédure

Cliquez sur l'en-tête des colonnes firstname et lastname tout en maintenant la touche Ctrl enfoncée pour en sélectionner le contenu.
Dans le panneau des fonctions, saisissez Deduplicate rows with identical values et cliquez sur le résultat pour afficher les options de la fonction associée.
Dans la liste déroulante Matching criterion, sélectionnez la règle de restriction que vous souhaitez appliquer, Exact value par exemple.
- Simplified text (Texte simplifié) : la ponctuation, les espaces blancs, la casse et les accents sont ignorés. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-eN-cRoute seront supprimées mais pas les lignes avec Pâté n croûte.
- Ignore case and accents (Ignorer la casse et les accents) : la casse et les accents ne sont pas pris en compte. Par exemple, si Pâté-en-croûte est votre valeur de référence, les lignes contenant pate-en-croute seront supprimées mais pas les lignes avec pate en croute.
- Exact value (Valeur exacte) : la règle de validation la plus restrictive. Les lignes seront supprimées uniquement si il existe une correspondance exacte avec la valeur de référence.
Cliquez sur Submit.

Résultats

La ligne contenant la copie de la ligne 2 sera supprimée, tandis que les autres lignes avec les valeurs identiques seront conservées car elles ne correspondaient pas au critère à deux colonnes.

Jeu de données contenant des informations client·es non dupliquées.

Dédoublonnage de lignes

Vous pouvez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour facilement supprimer les lignes qui sont des doublons exacts, et ne conserver qu'un seul exemplaire dans votre jeu de données.

Remarque : Cette fonction n'est pas compatible avec les Jobs Spark, avec les exports HDFS ou S3.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans cet exemple, vous avez reçu un jeu de données contenant des informations clients, où toutes les lignes sont systématiquement dupliquées.

Vous allez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour nettoyer facilement votre jeu de données.

Procédure

Cliquez sur l'en-tête de n'importe quelle colonne du jeu de données.
Cliquez sur l'onglet Table du panneau des fonctions pour afficher les fonctions qui peuvent être appliquées à l'ensemble du jeu de données.
Passez votre curseur sur la fonction Remove duplicate rows (Retirer les lignes dupliquées) et cliquez sur l'icône représentant un œil pour en prévisualisr les effets.
Cliquez sur Submit (Soumettre) pour appliquer la fonction.

Résultats

Toutes les informations dupliquées sont supprimées en une seule action, ne laissant dans le jeu de données qu'une seule occurrence correcte de chaque ligne.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici