Accéder au contenu principal Passer au contenu complémentaire

Dédoublonnage de lignes

Vous pouvez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour facilement supprimer les lignes qui sont des doublons exacts, et ne conserver qu'un seul exemplaire dans votre jeu de données.

Note InformationsRemarque : Cette fonction n'est pas compatible avec les Jobs Spark, avec les exports HDFS ou S3.

Les informations dupliquées sont souvent introduites dans les tableurs lors d'erreurs humaines, avec un mauvais copier-coller par exemple, ou lors d'opérations automatisées. Dans cet exemple, vous avez reçu un jeu de données contenant des informations clients, où toutes les lignes sont systématiquement dupliquées.

Jeu de données contenant des informations client·es dupliquées.

Vous allez utiliser la fonction Remove duplicate rows (Retirer les lignes dupliquées) pour nettoyer facilement votre jeu de données.

Procédure

  1. Cliquez sur l'en-tête de n'importe quelle colonne du jeu de données.
  2. Cliquez sur l'onglet Table du panneau des fonctions pour afficher les fonctions qui peuvent être appliquées à l'ensemble du jeu de données.
  3. Passez votre curseur sur la fonction Remove duplicate rows (Retirer les lignes dupliquées) et cliquez sur l'icône représentant un œil pour en prévisualisr les effets.
    Jeu de données contenant des informations client·es dupliquées sélectionnées.
  4. Cliquez sur Submit (Soumettre) pour appliquer la fonction.

Résultats

Toutes les informations dupliquées sont supprimées en une seule action, ne laissant dans le jeu de données qu'une seule occurrence correcte de chaque ligne.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.