Supprimer les doublons avec Excel

Quand on accumule des données dans un fichier, il est possible, qu’à la longue, on y trouve des doublons. C’est encore plus vrai quand on utilise des extractions d’autres bases de données, et que l’on veut en extraire une petite partie.

Il existe plusieurs méthodes pour supprimer les doublons avec Excel ou pour n’afficher que le contenu qui nous intéresse. Nous verrons ici les deux plus simples (à mon avis…) : en utilisant les fonctions.

Vous trouverez ici l’exemple que je vais traiter en téléchargement, ce qui peut vous aider à suivre mes explications.

1)      Méthode 1 :

– On ajoute une colonne dans le tableau (en D dans notre exemple) sur laquelle le test sera réalisé.

– On trie le tableau sur le champ que l’on veut tester dans l’ordre croissant (ici le champ ADRESSE).

– Dans la nouvelle colonne, on intègre une fonction SI qui va vérifier que si la cellule de la même ligne dans le champ ADRESSE est égale à celle de la ligne du dessus, alors on écrit DOUBLON, sinon OK (dans ce cas, elle est différente de celle du dessus) :

=SI(B2=B1; »DOUBLON »; »OK »)

– On utilise la recopie incrémentée pour l’appliquer sur toutes les lignes.

 Astuce :

cellule - croix
cellule – croix

Quand on se place sur la cellule à dupliquer et que l’on place le curseur sur le bouton en bas à droite de la cellule, une petit croix apparaît ; en double-cliquant la recopie se fait automatiquement jusqu’à la dernière cellule de la colonne d’à côté.

– On ajoute un filtre sur la première ligne en la sélectionnant puis en allant dans le menu Données puis Filtrer et Filtre automatique.

– Dans la colonne TEST AVANT IMPRESSION, on filtre sur DOUBLON et il ne reste plus qu’à supprimer les lignes qui apparaissent.

A noter : L’inconvénient avec cette méthode est que, dans cet exemple, le champ ADRESSE comporte des données vides. Avec le tri, elles sont venues se mettre en fin de fichier et le test de contrôle des cellules leur attribue un DOUBLON (à l’exception de la première bien entendu). Dans ce cas, si on est pas sûr de sa base, on fait un second filtre (s’ajoute au premier de la colonne D) en prenant les non-vides de la colonne B (dernier choix de la liste déroulante).

 

ATTENTION !

Pour la suppression des lignes, le filtre ne fait qu’afficher les lignes contenant les données que vous voulez mais ne les déplace pas. Ainsi, vous verrez que vous pouvez passer (par exemple) de la ligne 2 à 10 en affichage. Si vous faîtes une sélection simple, vous risquez de supprimer aussi les lignes qui se trouvent entre celles que vous voyez (ici de 3 à 9) alors que vous souhaitez les garder. Pour éviter cela, vous pouvez rajouter un bouton à votre barre d’outils qui ne sélectionnera que les cellules visibles à l’écran en cliquant dessus après votre sélection des lignes à supprimer.

Menu Outils
Menu Outils

Menu - bouton perso

2)      Méthode 2 :

La seconde méthode est sensiblement identique mais ne nécessite pas de tri sur le champ ADRESSE (inutile dans ce cas), utilise également la fonction SI mais aussi deux autres beaucoup moins familières et moins répandues (mon cas jusqu’à ce soir) qui sont peut-être moins faciles à utiliser.

– On ajoute la colonne supplémentaire (idem méthode 1).
– La fonction SI à intégrer va vérifier que si on trouve un équivalent à la cellule de la ligne active dans le tableau, et que le numéro de la ligne de cette équivalence est différent de celui de la ligne active, alors c’est un doublon :

=SI(EQUIV(B:B;B:B;0)=LIGNE(); »OK »; »DOUBLON »)

Pour plus de clarté et de compréhension, j’ai ajouté deux colonnes avec les résultats séparés des fonctions EQUIV et LIGNE. Vous verrez c’est plus parlant (voir les commentaires sur les noms de champs (ligne 1)).

– On recopie la formule et on utilise les filtres de la même manière pour supprimer les doublons.

A noter : Avec cette méthode, les lignes à vide du champ ADRESSE ne sont pas reconnues comme DOUBLON mais entraînent un message d’erreur de type #N/A qui permet de lister les corrections de la base à apporter avant ou après suppression des doubles.

L’intérêt de ces solutions est aussi que si votre extraction est récurrente et que vous devez refaire la même chose à chaque fois, vous pouvez copier d’une fois à l’autre les colonnes et les formules. Après, seul le nombre de ligne varie. Mais avec les filtres, vous voyez que la suppression de 2 lignes ou de 1000 prend le même temps.

Merci à Dominique pour la soumission de cet exemple et si, comme lui, vous avez des besoins particuliers, n’hésitez pas à m’en faire part.

Bonne chasse au doublon !

 

 

 

2 réflexions sur “Supprimer les doublons avec Excel”

  1. bonjour

    avec la methose 1 qui me satisfait, commet eliminer les doubons troubvés de cette feuille excel, de manière « automatoique », les 2 lignes trouvée

    c’est pour enlever des email désabonné d’une liste d email

    merci

    philippe

    1. Bonjour,
      Pour les supprimer automatiquement, il faudrait passer par un code VBA. Sinon, vous devez le faire à la main. Selon la version d’Excel que vous utilisez, il y a un outils de suppression des doublons, mais je n’ai pas encore fait d’articles à ce sujet.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.