Nous sommes des SEO BlackHat sévissant sur internet depuis plus de 10 ans. Nous savons créer des sites internet, les héberger sur le web et les positionner en 1er page des moteurs de recherche. Le référencement internet c’est notre métier et la monétisation notre passion !

Mobile Marketing

Pay Per Click (PPC) Management

Conversion Rate Optimization

Email Marketing

Online Presence Analysis

On vous rappelle gratuitement


Nous sommes à votre disposition pour discuter ensemble de vos projets internet.

+33 6 88 81 72 90

contact@black-hat-seo.org

66 Avenue Des Champs Elysées<br /> 75008 PARIS

+33 6 88 81 72 90

66 Avenue Des Champs Elysées 75008 Paris

Top

Web Scraping : Comment Scraper le Web avec le langage PHP

Le Web Scraping (parfois appelé “harvesting” (“récolte” en anglais)) est une technique d’extraction de contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte.

Toute personne voulant faire du SEO proprement doit savoir scraper.

Que ce soit pour identifier les bons mots clés, trouver des bonnes niches, des bons liens, suivre les positions dans les serps, contrôler les échanges de liens, vérifier des données, faire des autoblogs, collecter des données pour les vendre etc… vous avez forcément besoin de scraper ou alors vous avez besoin d’un logiciel qui fait du Web Scraping à votre place.

Parce que “savoir déléguer c’est bien mais savoir faire c’est mieux” (Punchline d’autodidacte), surtout lorsque l’on veut de la qualité en quantité… je vais vous montrer comment faire pour Savoir Scraper du Code-Source en PHP.

Le web scraping peut être utilisé pour récupérer des métadonnées ou tout autres éléments d’une page Web. Donc vous l’aurez compris la première étape consistera à scraper une page Web.

Comment scraper une page Web en PHP

La première fonction dont on entend parler quand on cherche à faire du scraping c’est la fonction file_get_contents.

Ok maintenant il nous faut un site Web à scraper et comme je veux pas d’ennui je vais éviter celui du FBI et plutôt scraper un petit site comme Google 😀

Voici donc comment utiliser la fonction file_get_contents pour scraper Google sur la requête web scraping :

Copiez ce code source dans un fichier “scraping.php” (ou autre nom sans espace mais laissez le .php) et placez le sur votre serveur Web via un logiciel de transfert FTP puis accédez à cette page via un navigateur Web, il vous affichera alors le code source du résultat de Google pour la recherche web scraping.

Le code source sera interprété par votre navigateur vu que le script l’affiche au complet avec le code “echo $codesource;”.

Vous voyez c’est simple en une ligne de code on scrap en une autre on affiche le résultat… Remplacez l’url par d’autres et testez le résultat…

Imaginons maintenant que nous voulons uniquement récupérer le titre de chaque résultats de la SERP.

Dans le code source de la page scrapé via un navigateur Web on commence par identifier la portion à capturer.

On obtient ainsi le code suivant :

Cette portion de code-source contient le 1er titre qui va nous servir d’exemple pour capturer aussi les autres.

Afin de les capturer nous allons utiliser la fonction preg_match_all mais avant nous allons transformer le code source à capturer en une “Regex”.

On met des # autour du code, on échappe les “doubles quote” avec un \ idem pour les ? puis on vire tout ce qui peut varier et qu’on ne veut pas en le remplaçant par .+ (qui veut dire n’importe quel caractère, plusieurs fois). Et pour finir on met des parenthèses sur ce que l’on veut capturer.

Vous pouvez vous aider de ce rapel sur les expressions régulières pour en faire d’autres.

On peut donc maintenant compléter le script de départ :

Avec lequel on obtient nos titres dans un tableau (array)

Vous pouvez faire le test avec d’autres sites pour d’autres données, et nous pouvons vous aider à réussir vos tests via le Forum dédié au Web Scraping.

Si vous voulez scraper Google vous pouvez en apprendre plus sur les Paramètres d’url de recherche de Google. Vous pouvez par exemple rechercher dans d’autres langues, désactiver la recherche personnalisé, afficher plus de resultats par page, etc…

Il existe d’autres fonctions PHP qui peuvent vous permettre de faire la même chose, j’en parlerais dans d’autres articles. Quoi qu’il en soit celles ci fonctionne et sont simple à utiliser.

Note: 5.0. Pour 1 vote.
Please wait...

Permalien :

seowllc@gmail.com

<p>Passionné par le référencement internet et l’automatisation de tache donc forcément aussi dans le squattage des SERPs ;) Je test, développe, détourne et améliore des outils qui me font gagner beaucoup de temps dans mon travail quotidien. Je suis Consultant SEO à plein temps et apprenti {Sorcier|Black Hat SEO} quant j’ai le temps… Vous pouvez me trouver chaque jours sur le forum Black Hat SEO : https://www.ghstools.fr/forum/</p>

Laisser un commentaire