
Scraper des URLs avec Scrapebox
Comment scraper des URLs avec Scrapebox
Je vous avais déjà présenté Scrapebox qui est un logiciel qui permet de faire du Web Scraping.
Aujourd’hui je vais vous apprendre à l’utiliser pour Scraper des URLS en faisant du Crawling sur les moteurs de recherche mais pour cela vous devez disposer de proxy valide pour crawler Google, puisque sans proxy vous allez vite être bloqué et donc votre récolte d’URLs sera très limité.
Scrapebox permet de scraper des proxy gratuit présent sur le Web mais vous allez perdre beaucoup de temps à les trier. Si vous voulez toutefois utiliser des proxy gratuit voici comment faire : Scraper des proxies gratuit avec Scrapebox.
Scraper avec Scrapebox
Lancez Scrapebox et vous obtenez ce résultat :
Dans la box “Havester and Keywords” cliquez sur le bouton “Import” et choisissez “Import From File” pour importer votre liste de mots à rechercher ou une liste de Footprints.
Votre fichier doit avoir un mot clé ou un footprint par ligne.
Ensuite dans la box “Select Harvester and Proxies” cliquez sur “Load” puis choisissez “Load From File” et allez chercher votre fichier contenant vos proxies.
Idem votre fichier de proxies doit avoir un proxy par ligne.
Maintenant vous pouvez cliquer sur “Start Harvesting” dans la box “Url’s Harvested”.
A partir de là vous devez choisir le ou les moteurs à crawler puis cliquer sur “Start”.
Une fois le processus de Scraping terminé vous pouvez retrouver les urls de votre session ici :
C:\chemin_scrapebox\Harvester_Sessions
Vous pouvez en apprendre plus sur Scrapebox en vous rendant sur le Forum Scrapebox.