⇒ Découvrez des Tutoriaux, de l'Actualités et des Prestations sur mesure avec l'agence Web Black Hat SEO ⇐

+33 6 88 81 72 90

66 Avenue Des Champs Elysées 75008 Paris

Top
anti clone

Dédoublonner des listes d’urls et des listes de caractères.

anti cloneVous savez faire du Web Scraping et vous savez scraper des données du web ?

Vous avez constitué des listes de ressources, que ce soit des titres, des urls, emails, noms de domaine, dates, prix… vous devez maintenant les trier pour mieux les utiliser.

Dans cet article je vais vous apprendre à dédoublonner, autrement dit supprimer les doublons de vos listes d’urls et de caractères.

Il existe plusieurs moyens pour dédoublonner une liste, ceux que je vais vous citer ne sont pas forcement les meilleurs mais c’est ceux que j’utilise quotidiennement. Si vous en connaissez d’autres merci de les partager en commentaires 😉

En fonction du type de doublons que vous souhaitez supprimer, vous devez utiliser des outils différents. Ici je vais vous parler principalement du dédoublonnage d’url et de nom de domaine.

Le formatage des données

informationGénéralement lorsque j’ai besoin de dédoublonner des urls je constitue un fichier TXT où je place les urls, une par ligne. Idem pour les titres, les emails etc… puis, en fonction du nombre à traité et du résultats souhaité je choisi d’utiliser Notepad++ ou GhsTools ou Xrumer ou PHP ou Scrapebox ou Excel.

Supprimer les lignes en doublons avec Notepad++

Le plus simple et efficace pour moi c’est d’ouvir un fichier texte avec NotepNotepad Logoad++ car on peut y faire beaucoup de traitement rapidement.

Mais pour supprimer des doublons vous devez installer le plugin “TextFX” dans notepad++. Ensuite il suffit de sélectionner les données à traiter puis aller sur TextFX -> Tools -> S’assurer que “+Sort outputs only Unique (at column) lines ” soit coché, puis cliquez sur “Sort lines case senitive (at column)”

doublon notepad

 

Les lignes en doublon sont supprimé :

supprimer doublon

 

 

 

 

 

 

Avec GHS Tools c’est plus facile !

Plus facile car moins de choses à retenir et rien à installer. Dans GHS Tools on colle sa liste en faisant un simple “copier coller”, puis on clique sur “convertir”.

doublon ghstools

 

On obtiens notre liste sans doublons.

dedoublonner

Dédoublonner par nom de domaine

Vos listes d’urls peuvent contenir des urls différentes mais provenant d’un même nom de domaine. Là encore vous pouvez utiliser GHS Tools qui permet aussi de supprimer les doublons de nom de domaine dans vos listes d’urls.

doublon domaine

Supprimer les doublons avec Xrumer

Je sais, on achète pas Xrumer pour supprimer les doublons, mais quand on est dedans et qu’on à besoin d’en supprimer c’est bien de pouvoir le faire sans avoir à changer de logiciel.

duplicate

Dédoublonne des array en PHP

En PHP il existe la fonction array_unique() qui permet de supprimer les doublons présent dans un array(). L’avantage de PHP c’est que vous pouvez créer vos propres filtres sur mesure 😉

Exemple d’utilisation de la fonction array_unique :

Résultat :

Supprimer les doublons avec Excel :

excel supprimer doublon

Vous pouvez aussi supprimer les doublons dans votre ordinateur, vos disques dur et clés USB avec des logiciels conçu pour celà, si vous en avez besoin je vous invite à venir en discuter sur le forum https://www.ghstools.fr/forum/viewforum.php?f=180

Rating: 4.8/5. From 58 votes.
Please wait...

seowllc@gmail.com

Au fil des deux dernières décennies, ma passion pour le référencement internet et l'automatisation des tâches n'a fait que croître, me positionnant comme un véritable stratège dans l'art du squattage des SERPs. Expert en détection et en exploitation de failles SEO, je continue à tester, développer et perfectionner des outils innovants, qui optimisent mon efficacité quotidienne. Consultant SEO chevronné et maître dans l'art du Black Hat, je mets mon expertise à profit pour déjouer les algorithmes les plus complexes. Mon terrain de jeu favori reste le forum Black Hat SEO (https://www.ghstools.fr/forum/), où je partage mes découvertes et guide les apprentis sorciers du SEO. À la croisée des chemins entre mentor et innovateur, je suis votre allié dans l'ombre pour dominer les SERPs.

Laisser un commentaire