
Dédoublonner des listes d’urls et des listes de caractères.
Vous savez faire du Web Scraping et vous savez scraper des données du web ?
Vous avez constitué des listes de ressources, que ce soit des titres, des urls, emails, noms de domaine, dates, prix… vous devez maintenant les trier pour mieux les utiliser.
Dans cet article je vais vous apprendre à dédoublonner, autrement dit supprimer les doublons de vos listes d’urls et de caractères.
Il existe plusieurs moyens pour dédoublonner une liste, ceux que je vais vous citer ne sont pas forcement les meilleurs mais c’est ceux que j’utilise quotidiennement. Si vous en connaissez d’autres merci de les partager en commentaires 😉
En fonction du type de doublons que vous souhaitez supprimer, vous devez utiliser des outils différents. Ici je vais vous parler principalement du dédoublonnage d’url et de nom de domaine.
Le formatage des données
Généralement lorsque j’ai besoin de dédoublonner des urls je constitue un fichier TXT où je place les urls, une par ligne. Idem pour les titres, les emails etc… puis, en fonction du nombre à traité et du résultats souhaité je choisi d’utiliser Notepad++ ou GhsTools ou Xrumer ou PHP ou Scrapebox ou Excel.
Supprimer les lignes en doublons avec Notepad++
Le plus simple et efficace pour moi c’est d’ouvir un fichier texte avec Notepad++ car on peut y faire beaucoup de traitement rapidement.
Mais pour supprimer des doublons vous devez installer le plugin “TextFX” dans notepad++. Ensuite il suffit de sélectionner les données à traiter puis aller sur TextFX -> Tools -> S’assurer que “+Sort outputs only Unique (at column) lines ” soit coché, puis cliquez sur “Sort lines case senitive (at column)”
Les lignes en doublon sont supprimé :
Avec GHS Tools c’est plus facile !
Plus facile car moins de choses à retenir et rien à installer. Dans GHS Tools on colle sa liste en faisant un simple “copier coller”, puis on clique sur “convertir”.
On obtiens notre liste sans doublons.
Dédoublonner par nom de domaine
Vos listes d’urls peuvent contenir des urls différentes mais provenant d’un même nom de domaine. Là encore vous pouvez utiliser GHS Tools qui permet aussi de supprimer les doublons de nom de domaine dans vos listes d’urls.
Supprimer les doublons avec Xrumer
Je sais, on achète pas Xrumer pour supprimer les doublons, mais quand on est dedans et qu’on à besoin d’en supprimer c’est bien de pouvoir le faire sans avoir à changer de logiciel.
Dédoublonne des array en PHP
En PHP il existe la fonction array_unique() qui permet de supprimer les doublons présent dans un array(). L’avantage de PHP c’est que vous pouvez créer vos propres filtres sur mesure 😉
Exemple d’utilisation de la fonction array_unique :
<?php $input = array("a" => "green", "red", "b" => "green", "blue", "red"); $result = array_unique($input); print_r($result); ?>
Résultat :
Array ( [a] => green [0] => red [1] => blue )
Supprimer les doublons avec Excel :
Vous pouvez aussi supprimer les doublons dans votre ordinateur, vos disques dur et clés USB avec des logiciels conçu pour celà, si vous en avez besoin je vous invite à venir en discuter sur le forum https://www.ghstools.fr/forum/viewforum.php?f=180