Vous savez faire du Web Scraping et vous savez scraper des données du web ?
Vous avez constitué des listes de ressources, que ce soit des titres, des urls, emails, noms de domaine, dates, prix… vous devez maintenant les trier pour mieux les utiliser.
Dans cet article je vais vous apprendre à dédoublonner, autrement dit supprimer les doublons de vos listes d’urls et de caractères.
Il existe plusieurs moyens pour dédoublonner une liste, ceux que je vais vous citer ne sont pas forcement les meilleurs mais c’est ceux que j’utilise quotidiennement. Si vous en connaissez d’autres merci de les partager en commentaires 😉
En fonction du type de doublons que vous souhaitez supprimer, vous devez utiliser des outils différents. Ici je vais vous parler principalement du dédoublonnage d’url et de nom de domaine.