Stabler : Industrialiser l’extraction de données

Dossier : TrajectoiresMagazine N°787 Septembre 2023

En 2019, Anis Gandoura (X09) a cofondé Stabler, qui fournit un web scraping industrialisé. Cette entreprise revendique un service de web scraping stable, scalable, fiable, économique, fondé sur des API (application programming interface) pour les grandes entreprises et les infrastructures.

Quelle est l’activité de stabler.tech ?

Stabler.tech commercialise un logiciel d’extraction de données sur internet. Cette activité – appelée web scraping en anglais – permet à nos clients, par exemple, de relever les prix, de suivre leurs concurrents, d’alimenter des modèles d’intelligence artificielle ou encore d’analyser des transactions de la blockchain. Nous automatisons l’extraction de tout ce qu’un humain pourrait laborieusement récolter à la main sur internet.

Quel est le parcours des fondateurs ?

Je suis diplômé de l’X, promotion 2009, et je m’occupe de la partie technique. J’ai fondé stabler.tech avec deux associés : Romain Hévin, diplômé d’Euridis Business School, qui gère le département commercial, et Paul Mouginot, diplômé de CentraleSupélec, qui est chargé des opérations. Nos compétences nous permettent de maîtriser toute la chaîne de valeur de l’entreprise, du développement technologique à la commercialisation, en passant par l’interaction avec nos clients. Par le passé, nous avons travaillé en tant que consultants en stratégie. Cela nous a permis de comprendre le fonctionnement de chaque client, qu’il s’agisse d’une start-up ou d’un grand groupe, de cerner ses préoccupations ainsi que ses contraintes internes.

Comment t’est venue l’idée ?

Auparavant, avec Paul et une troisième associée, nous avons cofondé daco.io, une entreprise qui permettait aux marques de mode d’analyser leur environnement concurrentiel. À l’époque, nous avions déjà développé des technologies d’intelligence artificielle et d’extraction de données. Quelques années après sa création, daco.io est devenue une PME rentable sans avoir à lever des fonds. Ce fut une expérience passionnante pour nous. daco.io a par la suite été acquise par son plus grand client, Veepee (anciennement vente-privee).

Chez Veepee, nous avons construit le département pricing en liaison avec les équipes expertes déjà présentes. C’est là, pendant trois ans, que nous avons développé une expertise dans le domaine de l’extraction de données industrielle et le déploiement de systèmes d’intelligence artificielle adaptés au commerce en ligne : reconnaissance d’images, prédiction de la demande, etc.

À cette époque, nous avons été contactés par de nombreuses entreprises qui connaissaient notre réputation dans le domaine et qui souhaitaient mettre en place des outils industriels d’extraction de données web. Nous avons donc eu l’idée de lancer stabler.tech pour démocratiser l’extraction de données et permettre à toute entreprise de s’équiper de tels outils pour un coût financier et opérationnel très raisonnable.

Qui sont les concurrents ?

Il existe des centaines de concurrents, parfois présents sur le marché depuis des années, ce qui confirme l’existence et la croissance de ce secteur. On peut parler d’océan rouge et de nombreux acteurs sont réputés pour la qualité de leur service. Néanmoins, ce marché est encore relativement peu consolidé. Nous nous distinguons par notre technologie flexible, simple d’utilisation, économique et conforme aux lois françaises et européennes. Nous avons ainsi l’ambition de contribuer à la consolidation de ce marché.

Quelles ont été les étapes clés depuis la création ?

Le marché de l’extraction de données est très hétérogène. Depuis notre création, nous avons commercialisé successivement trois produits : d’abord stablerSOLO pour les PME et les entrepreneurs individuels et stablerPLUS pour les grandes infrastructures qui ont besoin de rapidité et de volume. Avec ces deux offres, nous fournissons les machines et une formation qui permet à nos clients de mettre en place rapidement leurs propres extractions. Certains de nos clients ne désirent pas gérer eux-mêmes l’extraction des données. Nous proposons donc un troisième produit totalement intégré, oneplant. Grâce à cette solution, le client exprime ses besoins et nous déployons des experts IT qui opèrent nos technologies, en collaboration avec la société partenaire MyDataMachine.

Qui sont les clients du web scraping ?

Il existe deux grands types de clients : les PME et les indépendants d’une part, qui cherchent une solution facile à déployer et économique, et les grands groupes et infrastructures d’autre part, qui souhaitent externaliser leur R & D dans le domaine du web scraping. C’est un peu une « course à l’armement » et pouvoir collecter les informations nécessite une veille technologique permanente et la résolution de nombreux problèmes techniques.

Sans entrer dans les détails techniques justement, peux-tu expliquer au lecteur lambda de la J&R comment cela fonctionne ?

La plateforme stabler fonctionne en deux étapes. La première, appelée configuration, est l’étape où le client montre au robot comment extraire le site web. Cet apprentissage se fait en construisant un graphe, où chaque nœud est une étape élémentaire à réaliser. Cela peut être : « Visite cette page », « Clique sur ce bouton », « Tape ce texte dans ce champ », etc. Cette étape s’inspire de la programmation visuelle. La deuxième étape est l’extraction. Le robot parcourt, puis exécute le graphe de configuration du site web. Il est capable de se dupliquer pour aller plus vite et de recommencer automatiquement chaque étape lorsqu’une erreur est détectée. Le résultat est une extraction de haute qualité.

Est-ce légal ?

Le web scraping n’est pas explicitement réglementé par des lois, nous nous référons donc à la jurisprudence. Nous observons un ensemble de bonnes pratiques, comme le respect de la bande passante des sites web, et nous rappelons à nos clients de toujours agir en conformité avec les mentions légales des sites extraits. Nous sommes une petite entreprise, mais nous avons déjà beaucoup investi pour étudier le paysage juridique et respecter toutes les lois françaises et européennes. Par exemple, nous avons pris les dispositions nécessaires pour nous conformer au RGPD. Notre objectif serait d’être un jour fournisseurs de l’État ou des collectivités publiques.

Est-ce que vous vendez aussi des logiciels pour protéger vos clients du web scraping ?

Actuellement nous n’en vendons pas, mais notre expertise nous permettrait certainement de développer un excellent logiciel anti-bot. Cependant, l’évolution du marché et des lois est plutôt en faveur du web scraping et chaque entreprise a désormais besoin, d’une manière ou d’une autre, d’extraire de plus en plus de données afin d’affiner ses décisions.

Finalement, vous apportez à la guerre économique ce que les services de renseignements procurent à la défense nationale ?

Pour être plus précis, nous fournissons des outils de pointe qui permettent de disposer rapidement de données brutes, propres et fiables. Chaque client ayant des besoins spécifiques, nous n’intervenons pas sur le traitement et la transformation en aval. Des fleurons français comme Dataiku sont d’ailleurs déjà devenus des experts dans ce domaine. Le renseignement est un secteur où nous observons une demande croissante pour nos services. Le web scraping peut notamment être mis à profit dans le cadre de l’Open Source Intelligence (OSINT).

Nom du cookie	Expiration	Fonction
_ga	2 ans	Identification des visiteurs pour Google Analytics
_gid	24 h	Analyse du parcours utilisateur pour Google Analytics
module-manager-time- *	session	Le cookie est placé pour stocker les actions effectuées sur le site Web .
of_current_opt	1 semaine	Le cookie est placé par WordPress pour stocker les préférences de l\'utilisateur .
tk_ai	session	Recueille des informations pour notre propre outil d\'analyse de première partie sur la façon dont nos services sont utilisés. Une collection de métriques internes pour l\'activité des utilisateurs, utilisée pour améliorer l\'expérience utilisateur.