Si vous copiez et collez des éléments de pages Web et que vous les placez manuellement dans des feuilles de calcul, soit vous ne savez pas ce qu’est le grattage de données (ou le grattage Web), soit vous savez ce que c’est mais vous n’êtes pas vraiment enthousiaste à l’idée de apprendre à coder juste pour vous épargner quelques heures de clics.

Quoi qu’il en soit, il existe de nombreux outils de grattage de données sans code qui peuvent vous aider, et l’extension Chrome de Data Miner est l’une des options les plus intuitives. Si vous avez de la chance, la tâche que vous essayez d’effectuer sera déjà incluse dans le livre de recettes de l’outil, et vous n’aurez même pas à suivre les étapes de pointer-cliquer impliquées dans la création de la vôtre.

Comment fonctionne Data Miner ?

Data Miner vous aide à extraire des données de pages Web et à les transformer en fichiers Excel/CSV bien formatés en parcourant le texte des pages que vous avez chargées. Cela signifie que vous devrez au moins être suffisamment à l’aise avec HTML pour reconnaître quelques modèles, mais rien de trop complet. Des compétences avancées en HTML et/ou JavaScript seront certainement utiles pour certaines tâches, mais ne sont pas nécessaires pour la plupart des choses. Vous devez également avoir au moins des compétences de base en tableur pour être sûr que votre sortie est propre et organisée.

1. Configurer Data Miner

En utilisant Chrome ou un autre navigateur Chromium, installer l’extension. L’icône de la pioche de l’extension apparaîtra dans votre barre d’outils et en cliquant dessus, vous accéderez à une page où vous pourrez créer un compte. La version gratuite vous offre 500 grattages par mois, ce qui est probablement suffisant pour vous, à moins que ce ne soit quelque chose que vous faites tous les jours.

2. Chargez les données

Tout d’abord, accédez à la page dont vous souhaitez extraire les données. Si vous avez plusieurs pages de données ou si certaines d’entre elles sont cachées derrière des boutons, ce n’est pas grave – il existe des moyens de gérer cela. Pour l’instant, vous n’aurez besoin que d’un échantillon représentatif pour que le programme sache quoi rechercher.

3. Recherchez une recette

Recettes de Data Miner

Ensuite, ouvrez Data Miner et vérifiez le Public pour les recettes existantes. Si vous êtes sur un site populaire, quelqu’un d’autre a peut-être déjà créé un processus pour obtenir les données que vous recherchez, ce qui vous ferait gagner un peu de temps. Des sites comme Google, Amazon et Twitter, par exemple, proposent de nombreuses recettes pour vous aider à télécharger instantanément des liens, des prix, du texte et d’autres données. Vous pouvez tester les recettes en cliquant sur le Run pour voir un aperçu de la feuille de calcul générée par Data Miner. Vous pouvez également modifier les recettes existantes pour les adapter à vos besoins en appuyant sur le bouton Edit.

4. Type de page

Type de page du mineur de données

D’accord, donc aucune recette prédéfinie n’a fonctionné pour vous. C’est bon, vous pouvez faire le vôtre. Cliquez simplement sur le New Recipe commencer.

Votre premier choix sera List Page ou Detail Page.

Sélectionner List Page si vous essayez d’extraire plusieurs lignes de données d’une même page. Par exemple, vous pouvez télécharger le lien et le titre de la page de chaque résultat de recherche ou obtenir la date et le contenu des publications dans un fil. C’est probablement le type le plus courant et celui que nous utiliserons ici comme démo. (Les étapes d’une page de détail sont essentiellement les mêmes.)

Sélectionner Detail Page si vous avez beaucoup d’informations différentes sur une chose sur une seule page – une page de produit, par exemple, où vous devez saisir son prix, sa description, son lien et son évaluation et tout mettre sur une seule ligne.

Étape 5 : faites vos rangées

Data Miner Row Select 4

Frappez le Find et déplacez votre souris jusqu’à ce que la zone de sélection jaune couvre toutes les données dont vous auriez besoin pour une seule entrée dans votre feuille de calcul finale. Par exemple, si vous téléchargez des résultats de recherche, vous devrez mettre en surbrillance une zone suffisamment grande pour inclure le titre, l’URL et la description, que vous pourrez mettre chacun dans des colonnes distinctes à l’étape suivante. Pour faire votre choix, appuyez sur le Changement clé. Ne vous inquiétez pas si vous cliquez accidentellement ; Data Miner enregistre toute la progression de votre recette même si vous quittez la page.

Vous devrez ensuite cocher au moins une des cases de la Element’s Classes ou HTML Element Type. Idéalement, vous verrez la sélection se répliquer pour couvrir tous les éléments de la page appartenant à la même catégorie que celle que vous avez sélectionnée.

Ligne de mineur de données, sélectionnez 5

Si vous trouvez que le sélecteur ne couvre pas tout ce dont vous avez besoin, essayez de sélectionner un seul des éléments et appuyez sur Select Parent. Cela agrandira la boîte et capturera probablement tout ce dont vous avez besoin. Sinon, vous devrez peut-être creuser un peu dans le code HTML et identifier les classes et les types d’éléments dont vous avez besoin. En cas de doute, frappez Select Parent jusqu’à ce que la boîte soit aussi grande que possible sans couvrir plus d’une entrée de liste, car cela vous donnera plus de flexibilité lors de la sélection des colonnes.

Data Miner vous donne un View Element’s HTML en bas et vous permet également de saisir des sélecteurs personnalisés. Si vous voulez dire, saisissez tous les liens sur une page avec la classe product, vous pouvez simplement taper a.product. C’est là que certaines connaissances de base en HTML/CSS seront vraiment utiles.

Mineur de données Ligne Sélectionnez 6

Une fois de retour au menu de la ligne principale, vous devriez voir un Row Count le nombre d’entrées que votre recette créera dans une feuille de calcul. S’il ne capture pas tout, vous devrez revérifier votre sélection de lignes.

6. Divisez vos données en colonnes

Data Miner Col Select 1

Une fois que vous avez sélectionné toutes les données pour vos lignes, il est temps de tout mettre en valeur en les subdivisant en différentes catégories de colonnes. Chaque sélection que vous effectuez ici doit être une sous-section de la case que vous avez sélectionnée pour vos lignes.

Data Miner Col Select 2

Pour créer une colonne, saisissez simplement un nom et utilisez le bouton Rechercher pour sélectionner ce que vous souhaitez extraire, de la même manière que vous l’avez fait pour les lignes. Les données les plus courantes seront probablement le texte, l’URL ou l’URL de l’image. Obtenir des URL en survolant des liens de texte peut être légèrement délicat ; vous devrez peut-être appuyer select parent jusqu’à ce que vous atteigniez un niveau où le type d’élément est <a>, qui est la balise HTML des liens.

Data Miner Col Select 1

Pour vous assurer d’avoir le bon type de données dans votre colonne, appuyez simplement sur l’icône en forme d’œil à droite du nom de chaque colonne, à côté du nombre qui vous indique le nombre de colonnes sélectionnées. Cela vous montrera un aperçu de chaque entrée de ligne pour cette colonne. Si quelque chose ne va pas, revenez en arrière et modifiez les balises et les types que vous avez choisis pour identifier les lignes. N’ayez pas peur d’ouvrir la visionneuse HTML et de vérifier les modèles associés aux données que vous essayez de récupérer.

7. Dites à Data Miner comment accéder à la page suivante

Data Miner Nav 1

Si vous avez plusieurs pages de données à extraire, vous ne voudrez probablement pas cliquer sur chacune d’entre elles et exécuter votre recette encore et encore. Pour contourner ce problème, indiquez simplement à Data Miner où trouver le bouton de navigation sur lequel il doit cliquer pour accéder à la page suivante. Faites attention de ne pas lui dire de cliquer sur quelque chose comme Page 2, car alors il ira juste à, eh bien, page 2. Encore une fois, assurez-vous que vous sélectionnez un <a> et utilisez le bouton Tester la navigation pour vous assurer qu’il fonctionne.

Data Miner Nav 2

8. Dites à Data Miner où cliquer ou faire défiler pour charger les données

Cliquez sur l'élément Actions du mineur de données

Certaines pages ne chargent pas les données tant que vous n’avez pas cliqué sur quelque chose ou fait défiler vers le bas. Heureusement, Data Miner peut faire ces choses aussi ! Utilisez le Find en haut (vous devriez être assez bon dans ce domaine maintenant) pour sélectionner l’élément que vous devez manipuler, puis placez le sélecteur dans la case appropriée et testez-le pour vous assurer qu’il fonctionne.

Déterminer exactement quel sélecteur activera l’élément ou la barre de défilement infinie peut être délicat, mais des connaissances de base en HTML et quelques essais et erreurs vous mèneront assez loin ici. La plupart des éléments que vous devrez manipuler ici sont basés sur JavaScript, mais Data Miner n’a besoin de connaître que le sélecteur CSS associé à l’action pour l’activer.

L’étape suivante vous permet également d’ajouter du JS personnalisé pour faire à peu près tout ce que vous voulez, mais c’est assez avancé et va au-delà de ce dont nous avons besoin pour le grattage de base.

9. Enregistrez et exécutez la recette

Mineur de données

Toutes nos félicitations! Il est maintenant temps de voir si tout s’est bien passé. Exécutez la recette sur la page sur laquelle vous vous trouvez et vérifiez l’aperçu pour voir si vos lignes et colonnes font ce qu’elles sont censées faire. Sinon, vous pouvez revenir en arrière et modifier la recette.

Explorateur de données 1

Si tout se passe comme il se doit, vous pouvez utiliser le Next Page pour dire au scraper combien de pages il doit parcourir et à quelle vitesse il doit aller/(Aller trop vite peut amener le système à vous signaler comme un bot.)

Pagination de l'exécution du mineur de données

Une fois que vous avez toutes les données dont vous avez besoin, vous pouvez choisir le format de fichier que vous souhaitez utiliser pour le télécharger.

Mineur de données Excel Csv

J’ai des problèmes; y a-t-il un moyen plus simple?

Si le programme Data Miner ne fonctionne pas pour vous, il existe de nombreux autres outils de grattage de données disponibles : ParseHub, Scraper, Octoparse, Import.io, VisualScraper, etc. Certains d’entre eux peuvent avoir des interfaces plus intuitives et plus d’automatisation, mais vous aurez toujours besoin de connaître au moins un peu le HTML et la façon dont le Web est organisé. Ce qui rend Data Miner particulièrement agréable pour les débutants, c’est sa bibliothèque de recettes participative, qui pourrait potentiellement vous aider à éviter même la rencontre la plus mineure avec le code. Cela, combiné à son forfait mensuel gratuit assez généreux, en fait un outil très décent pour la plupart des besoins.

Previous articleComment vérifier la température du processeur sous Windows 10 et Windows 11
Next article10 des meilleures applications mobiles pour vous aider à rester en bonne santé