Atelier Octoparse

Objectif:

Découvrir l’outil Octoparse, permettant d’effectuer du scrapping, c’est à dire de récupérer les données provenant de sites internet de façon automatisée.

Prérequis:

Créer un compte Octoparse

Octoparse est un logiciel qui (malheureusement) nécessite un compte, ceci est dû au fait que le logiciel se veuille proposer des fonctionnalités “pro”, dont nous ne nous servirons pas, car la version gratuite propose déjà tout ce qu’il nous faut.

Pour se créer un compte c’est ici , allez jusqu’au bout de la procédure, en entrant n’importe quoi pour les informations demandées, puis terminez en cliquant sur “Continuer à utiliser le service gratuit”:

Untitled

Télécharger le logiciel

Il ne reste alors plus qu’à télécharger le logociel en suivant ce lien en choisissant votre OS. (Malheureusement il semble qu’il n’y ait pas de version linux). Une fois installé, vous pouvez le lancer et vous connecter.

Quelques exemples:

Source	Contenu
Youtube	Commentaires
Facebook	Groupes publics
Instagram	Pages publiques
Twitter	Threads
Sites de presse	Articles et commentaires
Autres sites internet	Données diverses
Wikipedia	Contenu des articles
Linkedin	Posts
Genius	Paroles de chanson

Pour récupérer les données des sites pas de solution miracle, il faut forcément les scrapper, et cela représente un exercice de difficulté très variable en fonction de la structure des sites.

En effet tous les sites sont des documents respectant une structure hiérarchique écrite en langage HTML (ressemblant fortement au XML pour ceux qui connaissent). L’enjeu est justement de tirer parti de cette même structure pour la parcourir et récupérer les éléments qui nous intéressent.

Cette structure peut être visualisée facilement depuis n’importe quel navigateur (souvent en faisant clic droit, puis inspecter). On obtient alors quelque chose comme ceci:

Untitled

On observe sur la droite le code HTML de la page, c’est à dire la structure contenant les informations affichées à l’écran. Voici une façon classique de représenter des éléments d’un site:

<html>
	<body>
		<h1>Ceci est gros titre</h1>
		<h2>Ceci est un titre plus petit</h2>
		<li>
			<ul>Ceci est un élément de liste</ul>
			<ul>Et ceci un autre</ul>
		...

Quand toutes les informations sont structurées de la même façon c’est, comme nous allons le voir assez facile à automatiser mais quand des éléments a priori identiques ont des balises différentes, cela devient dur (twitter par exemple).

La conclusion de ceci, c’est que parfois vous pourrez vous débrouiller seuls avec Octoparse, et parfois il faudra soit: