
Scraper et tester des proxies avec Scrapebox
Sommaire
Un proxy c’est quoi ?
Un proxy est un serveur Web configuré pour servir d’intermédiaire à chacune des requêtes que vous faites sur le Web.
Le proxy joue le rôle de passerelle entre vous et le serveur censé vous retourner une réponse. Ainsi vous pouvez préserver votre anonymat puisque les sites que vous visitez verront uniquement l’IP du proxy.
En d’autres termes : Vous faites une demande d’afficher une page à votre proxy, il va la chercher et vous l’envoi.
Comment trouver des proxies avec Scrapebox
Je vous ai déjà présenté Scrapebox le couteau suisse du SEO, je vous avais montré comment importer vos proxys payant… Nous allons voir ici comment scraper des proxys gratuit sur le Web en utilisant “des sources de proxy”.
Une source de proxy c’est simplement une page Web qui contient une liste plus ou moins grande de proxy mais surtout mise à jour régulièrement.
Scrapebox est paramétré d’origine avec plusieurs sources de proxy mais vous pouvez en trouver d’autres sur le Forum dédié aux Proxies.
La box “Select Harvester and Proxies” de Scrapebox
Dans la box “Select Harvester and Proxies” cliquez sur le bouton “Manage”.
Le Manager des proxy est ouvert. Cliquez sur le bouton “Harvest Proxies”. La fenêtre “Proxy Harverster” s’ouvre :
Cochez les sources de votre choix puis cliquez sur le bouton “Start”.
Une fois le processus de scraping des proxies terminé, cliquez sur le bouton “Export” puis sur “Save to Proxy Manager”.
Vous obtenez ce résultat :
Ici j’ai presque 1 million de proxy ! Il ne sont pas tous valide. Nous allons donc les trier.
Trier les proxies avec Scrapebox
Commençons par supprimer les doublons. Cliquez sur le bouton “Filter” puis sur “Remove Duplicate Proxies”.
Après cette opération je suis passé de 1 million à 62 000. On peut maintenant lancer le test des proxies. Pour cela cliquez simplement sur le bouton “Test Proxies” puis sur “Test all Proxies”.
Scrapebox va tester chaque proxy pour identifier ceux qui fonctionne mais aussi ceux qui ne sont pas bloqué par Google et ceux qui sont réellement anonyme car certains révèlent votre vrai IP.
Scrapebox identifie également le type proxy (HTTP ou SOCKS) ainsi que leur géolocalisation.
Une fois le processus terminé vous pouvez cliquer sur le bouton “Filter” puis sur “Keep Proxies which passed the Anonymous & Google / Custom Test” afin de garder uniquement ceux qui sont réellement anonyme et ceux qui sont valide pour Google.
Dans mon exemple je me retrouve avec 4005 proxy anonyme et qui passent le test de Google.
En cliquant sur le bouton “Save Proxies” puis sur “Save all to Scrapebox Proxy List” vous envoyez votre liste dans la box “Select Harvester and Proxies”.
Vous pouvez ensuite cliquer sur le bouton “Close” et commencer à utiliser vos proxy gratuit.
Cependant vous obtiendrais des meilleurs résultats en utilisant les sources et les proxy du service : http://proxy-anonyme.com/