⇒ Découvrez des Tutoriaux, de l'Actualités et des Prestations sur mesure avec l'agence Web Black Hat SEO ⇐

+33 6 88 81 72 90

66 Avenue Des Champs Elysées 75008 Paris

Top
crawling

Crawler ou Web Crawling : Définition + Exemples

Définition de Crawler et Crawling

crawlingUn Crawler est un robot ou un logiciel qui fait du Crawling, on dit généralement qu’il “Crawl” en d’autres termes il “explore le Web” en parcourant les liens qu’il trouve.

Vous pouvez demander à votre Crawler de parcourir le Web, ou lui dire d’explorer seulement une partie du Web, comme votre site Web ou ceux de vos concurrents.

Comment crawler un site Web

Vous devez avoir un crawler, pour commencer, je vous conseil de télécharger Xenu’s Link Sleuth qui est un bon logiciel de crawl pour débuter en Crawling 😉

Installez le sur votre ordinateur ou comme moi sur un VPS, puis exécutez le.

xenu verifier url

Dans le menu cliquez sur “File” puis sur “Check Url”. File veut dire “Fichier” et Check Url “vérifier une Url”.

xenu verifier site web

Indiquez l’URL de votre choix. Puis cliquez sur “OK” sans toucher aux autres options.

resultat

En fonction du nombre de pages de votre choix d’URL le résultat de votre Crawl peut être affiché en quelques secondes, minutes ou heures.

Félicitation vous venez de crawler un site internet avec le logiciel Xenu 😉

Vous pouvez maintenant trier les données collecté pour en faire ce que vous avez besoin.

Comment créer un Crawler

Vous pouvez créer un robot ou un logiciel de crawling en plusieurs langages de programmation.

Le plus courant est le langage PHP et C++. La semaine dernière j’ai publié un article sur Comment Scraper Google en PHP, nous allons donc reprendre le même script et l’améliorer afin de rester avec un code source que vous êtes censé maîtriser 🙂

Voici le script PHP qui crawl Google pour scraper les titres des 10 sites positionné sur une requête :

On remplace simplement la Regex par celle ci :

Ainsi on va pouvoir crawler Google pour scraper les urls des sites positionné sur la requête de notre choix.

Voici le retour du script après modification :

resultat crawl url

Pour aller  plus loin :

Maintenant que vous savez crawler des pages Web en PHP vous pouvez compléter le code source pour crawler aussi ces pages puis extraire les liens, puis les crawler, puis extraire les liens, puis les crawler etc…

Vous pouvez aussi utiliser GHS Tools pour crawler les SERPS de Google, crawler des sites Webcrawler les réseaux sociaux, crawler des annuaires pour trouver des noms de domaines expirés etc…

 

Rating: 4.3/5. From 50 votes.
Please wait...

seowllc@gmail.com

Au fil des deux dernières décennies, ma passion pour le référencement internet et l'automatisation des tâches n'a fait que croître, me positionnant comme un véritable stratège dans l'art du squattage des SERPs. Expert en détection et en exploitation de failles SEO, je continue à tester, développer et perfectionner des outils innovants, qui optimisent mon efficacité quotidienne. Consultant SEO chevronné et maître dans l'art du Black Hat, je mets mon expertise à profit pour déjouer les algorithmes les plus complexes. Mon terrain de jeu favori reste le forum Black Hat SEO (https://www.ghstools.fr/forum/), où je partage mes découvertes et guide les apprentis sorciers du SEO. À la croisée des chemins entre mentor et innovateur, je suis votre allié dans l'ombre pour dominer les SERPs.

Laisser un commentaire