Nous sommes des SEO BlackHat sévissant sur internet depuis plus de 10 ans. Nous savons créer des sites internet, les héberger sur le web et les positionner en 1er page des moteurs de recherche. Le référencement internet c’est notre métier et la monétisation notre passion !

Mobile Marketing

Pay Per Click (PPC) Management

Conversion Rate Optimization

Email Marketing

Online Presence Analysis

On vous rappelle gratuitement


Nous sommes à votre disposition pour discuter ensemble de vos projets internet.

+33 6 88 81 72 90

contact@black-hat-seo.org

66 Avenue Des Champs Elysées<br /> 75008 PARIS

+33 6 88 81 72 90

66 Avenue Des Champs Elysées 75008 Paris

Top

Dédoublonner des listes d’urls et des listes de caractères.

Vous savez faire du Web Scraping et vous savez scraper des données du web ?

Vous avez constitué des listes de ressources, que ce soit des titres, des urls, emails, noms de domaine, dates, prix… vous devez maintenant les trier pour mieux les utiliser.

Dans cet article je vais vous apprendre à dédoublonner, autrement dit supprimer les doublons de vos listes d’urls et de caractères.

Il existe plusieurs moyens pour dédoublonner une liste, ceux que je vais vous citer ne sont pas forcement les meilleurs mais c’est ceux que j’utilise quotidiennement. Si vous en connaissez d’autres merci de les partager en commentaires 😉

En fonction du type de doublons que vous souhaitez supprimer, vous devez utiliser des outils différents. Ici je vais vous parler principalement du dédoublonnage d’url et de nom de domaine.

Le formatage des données

Généralement lorsque j’ai besoin de dédoublonner des urls je constitue un fichier TXT où je place les urls, une par ligne. Idem pour les titres, les emails etc… puis, en fonction du nombre à traité et du résultats souhaité je choisi d’utiliser Notepad++ ou GhsTools ou Xrumer ou PHP ou Scrapebox ou Excel.

Supprimer les lignes en doublons avec Notepad++

Le plus simple et efficace pour moi c’est d’ouvir un fichier texte avec Notepad++ car on peut y faire beaucoup de traitement rapidement.

Mais pour supprimer des doublons vous devez installer le plugin “TextFX” dans notepad++. Ensuite il suffit de sélectionner les données à traiter puis aller sur TextFX -> Tools -> S’assurer que “+Sort outputs only Unique (at column) lines ” soit coché, puis cliquez sur “Sort lines case senitive (at column)”

 

Les lignes en doublon sont supprimé :

 

 

 

 

 

 

Avec GHS Tools c’est plus facile !

Plus facile car moins de choses à retenir et rien à installer. Dans GHS Tools on colle sa liste en faisant un simple “copier coller”, puis on clique sur “convertir”.

 

On obtiens notre liste sans doublons.

Dédoublonner par nom de domaine

Vos listes d’urls peuvent contenir des urls différentes mais provenant d’un même nom de domaine. Là encore vous pouvez utiliser GHS Tools qui permet aussi de supprimer les doublons de nom de domaine dans vos listes d’urls.

Supprimer les doublons avec Xrumer

Je sais, on achète pas Xrumer pour supprimer les doublons, mais quand on est dedans et qu’on à besoin d’en supprimer c’est bien de pouvoir le faire sans avoir à changer de logiciel.

Dédoublonne des array en PHP

En PHP il existe la fonction array_unique() qui permet de supprimer les doublons présent dans un array(). L’avantage de PHP c’est que vous pouvez créer vos propres filtres sur mesure 😉

Exemple d’utilisation de la fonction array_unique :

Résultat :

Supprimer les doublons avec Excel :

Vous pouvez aussi supprimer les doublons dans votre ordinateur, vos disques dur et clés USB avec des logiciels conçu pour celà, si vous en avez besoin je vous invite à venir en discuter sur le forum https://www.ghstools.fr/forum/viewforum.php?f=180

Note: 5.0. Pour 1 vote.
Please wait...

Permalien :

seowllc@gmail.com

<p>Passionné par le référencement internet et l’automatisation de tache donc forcément aussi dans le squattage des SERPs ;) Je test, développe, détourne et améliore des outils qui me font gagner beaucoup de temps dans mon travail quotidien. Je suis Consultant SEO à plein temps et apprenti {Sorcier|Black Hat SEO} quant j’ai le temps… Vous pouvez me trouver chaque jours sur le forum Black Hat SEO : https://www.ghstools.fr/forum/</p>

Laisser un commentaire