Présentation d’Octoparse 7.1 : le scraping Web pour les nuls est officiel !

Web

Au fil des années de travail dans l’industrie des données, l’équipe d’Octoparse a toujours maintenu un rythme soutenu pour rendre les données plus accessibles et facilement disponibles pour tous. Cette démarche est ancrée dans notre conviction qu’à l’ère du big data, n’importe qui devrait avoir la chance de pouvoir collecter des données afin d’en exploiter la puissance.

Ce mois de novembre, l’équipe d’Octoparse sort la nouvelle version 7.1. Cette dernière inclut l’un des mouvements les plus révolutionnaires depuis des années : le Scraping en mode Modèle.

Qu’est-ce qui rend le Scraping en mode Modèle si spécial ?

Si vous vous êtes déjà demandé quel était le niveau de compétences techniques requis pour construire un scraper web ? La réponse est « Aucune » avec le Template Mode Scraping récemment lancé. Plus précisément, il y a maintenant des dizaines de modèles intégrés dans le programme et tous prêts à être utilisés pour récupérer des données instantanément, avec une courbe d’apprentissage presque nulle !

De nombreux sites populaires comme Amazon, Indeed, Booking, Trip Advisors, Twitters, YouTube, YellowPage, Walmart, Zillow, Realtor et bien d’autres sont couverts en ce moment. De plus, si vous pensez qu’un site Web doit être ajouté à la liste, il vous suffit de prendre contact avec l’équipe d’Octaparse. Ainsi, ils envisageront de créer un modèle pour le site.

À qui cela s’adresse-t-il ?

À tout le monde ! Oui, tous ceux qui veulent une extraction de données rapide et facile. S’ils ont déjà un modèle dont vous avez besoin, c’est génial ! Si ce n’est pas le cas, faites-leur savoir !

Le Scraping en mode Modèle peut être particulièrement précieux pour quiconque a besoin d’extraire des données de certaines des pages web et des sites les plus populaires qui existent – populaire comme les jeux des doodles Google populaires ! et peut-être ceux qui préfèrent sauter l’apprentissage et ne nécessitent pas un haut niveau de personnalisation des données.

Comment est-il différent de l’ancien Scraping en mode Assistant ？

Si vous n’êtes pas nouveau à Octoparse, vous avez peut-être déjà essayé nos anciens Scrapers en mode Assistant. En fait, le nouveau Scraping en mode Modèle et le Scraping en mode Assistant sont complètement différents. L’ancien mode assistant fonctionne pour quelques structures de pages spécifiques, tandis que les scrapers en mode modèle sont des scrapers préconstruits qui extraient des champs de données prédéfinis de sites Web spécifiques. Contrairement au mode assistant, qui exige des utilisateurs qu’ils identifient correctement la structure de la page Web et indiquent à Octoparse les champs de données à capturer, les racleurs de modèles se chargent de tout le travail et il ne vous reste plus qu’à indiquer à Octoparse vos critères de recherche. Par exemple, restaurant à New York, puis cliquez sur « démarrer » pour obtenir des données.

Comment l’utiliser ?

Sélectionnez « Modèles de tâches » sur l’écran d’accueil;
Posez un modèle;
Vérifiez les champs de données et les paramètres prédéfinis;
Sélectionnez « Utiliser le modèle « Entrez la variable pour les paramètres, comme ; « iPhone » pour le mot-clé de la recherche (connaissiez-vous Beephone ?) ;
Enregistrez le modèle et exécutez.

Et il y a d’autres améliorations…?

Pour ne pas laisser de côté l’engagement d’Octoparse dans le scraping à grande échelle des sites Web les plus complexes et difficiles, la nouvelle version comprend également des fonctionnalités axées sur un scraping de données plus efficace, plus effectif et plus puissant.

Saisie d’URL à un million de niveaux

Auparavant, vous ne pouviez saisir que 20 000 URL pour toute tâche de crawling. Désormais, vous pouvez ajouter jusqu’à 1 million d’URL à n’importe quelle tâche. Mieux encore, importez la liste des URL depuis des fichiers locaux (txt, csv ou xls) ou depuis une autre tâche directement. Vous pouvez même associer deux tâches en cours d’exécution en demandant à l’une d’elles d’extraire les URL et à la seconde d’aller chercher des données supplémentaires à partir de chaque URL extraite. En bref, vous pouvez désormais associer directement les deux tâches sans avoir à « transférer » manuellement les URL d’une tâche à l’autre.

En outre, la nouvelle fonctionnalité Générateur d’URL permet de « générer » une liste d’URL en fonction de modèles spécifiques. Un exemple simple sera celui qui n’a que les changements de numéro de page.

Des cas d’utilisateurs possibles incluent :

Scraping d’une grande liste d’URLScraping de produits massifs à partir de sites E-commerciaux. Obtenir les URL des produits et les détails des produits séparément peut grandement améliorer l’efficacité et la cohérence des scrapes, en même temps, réduit également les chances d’être bloqué et les données manquantes. Scraping de sites qui bloquent facilement. Les tâches s’exécutant sur une liste d’URL peuvent être assignées pour s’exécuter sur différents serveurs et ainsi mieux exploiter les ressources IP pour éviter d’être interdites. Scraping d’un grand nombre de pages différentes d’un site Web particulier. Utilisez le générateur d’URL pour générer rapidement toutes les URL des pages et scraper toutes les pages simultanément (à lire : générateur de v bucks !). Pas besoin de parcourir les pages une par une.

Tableau de bord amélioré

Par rapport au tableau de bord de la version 7.0, la mise en page améliorée du tableau de bord est plus informative, personnalisable et efficace.

La nouvelle version propose deux types de mises en page du tableau de bord à choisir en fonction de vos préférences (classement des tâches par date de création ou par groupes de tâches). Vous pouvez également choisir les informations sur les tâches que vous souhaitez voir dans le tableau de bord, notamment l’état du scraping, le temps utilisé, le nombre d’exécutions, la prochaine exécution (si elle est programmée), l’heure d’achèvement du scraping.

Léo Delacroix

Passionné de technologie, spécialisé dans les domaines du gaming, des mobiles et tablettes, du multimédia, et du web et fort d’une expérience de plus de 5 ans dans le secteur, il décortique les dernières innovations avec un regard analytique et une plume fluide. Curieux de nature, Léo est toujours à l'affût des nouvelles tendances et aime partager ses découvertes avec ses lecteurs, qu’il guide à travers des articles clairs et pertinents. Avec une approche à la fois technique et accessible, il rend le monde de la tech compréhensible et passionnant.