Nous sommes des SEO BlackHat sévissant sur internet depuis plus de 10 ans. Nous savons créer des sites internet, les héberger sur le web et les positionner en 1er page des moteurs de recherche. Le référencement internet c’est notre métier et la monétisation notre passion !

Mobile Marketing

Pay Per Click (PPC) Management

Conversion Rate Optimization

Email Marketing

Online Presence Analysis

On vous rappelle gratuitement


Nous sommes à votre disposition pour discuter ensemble de vos projets internet.

+33 6 88 81 72 90

contact@black-hat-seo.org

66 Avenue Des Champs Elysées<br /> 75008 PARIS

+33 6 88 81 72 90

66 Avenue Des Champs Elysées 75008 Paris

Top

Vous savez faire du Web Scraping et vous savez scraper des données du web ?

Vous avez constitué des listes de ressources, que ce soit des titres, des urls, emails, noms de domaine, dates, prix… vous devez maintenant les trier pour mieux les utiliser.

Dans cet article je vais vous apprendre à dédoublonner, autrement dit supprimer les doublons de vos listes d’urls et de caractères.

Il existe plusieurs moyens pour dédoublonner une liste, ceux que je vais vous citer ne sont pas forcement les meilleurs mais c’est ceux que j’utilise quotidiennement. Si vous en connaissez d’autres merci de les partager en commentaires 😉

En fonction du type de doublons que vous souhaitez supprimer, vous devez utiliser des outils différents. Ici je vais vous parler principalement du dédoublonnage d’url et de nom de domaine.

Partagez :

Windows enregistre l’IP des sites que vous visitez dans ce que l’on appelle “le cache DNS”.
Le cache DNS à été conçu pour vous permettre d’accéder plus rapidement aux sites que vous visitez souvent. Cependant si un site change d’IP, votre ordinateur cherchera le site sur la mauvaise IP.

Vous pouvez donc choisir d’attendre que votre ordinateur supprime le cache DNS tout seul ou vous pouvez choisir de le vider vous même 😉

Partagez :