3 meilleurs outils de scraping sur SeLoger en 2022
SeLoger est une source de données fantastique. Au 15/08/2022, le site recense un peu plus de 620 185 biens à la vente, partout en France, et pas moins de 97 873 biens à la location. Ce qui en fait un acteur incontournable du marché immobilier français.
Par ailleurs, selon cet excellent article de Immomatin, qui reprend un rating de MĂ©diamĂ©trie dâoctobre 2019 basĂ© sur un panel de 25 000 internautes, le site a accueilli en Octobre 2019 plus de 6,36 millions de visites uniques. Le site se place donc en solide seconde position, derriĂšre leboncoin avec 12,08 millions, et Bienâici avec 3,94 millions.
Dans ce tutoriel, nous allons donc voir ensemble les 3 meilleurs outils pour faire du scraping sur SeLoger, avec 2 solutions sans code, et 1 solution à tester avec un développeur.
A nous les belles bĂątisses!
đĄ
Legal
Avant de rentrer dans le vif du sujet, une question revient souvent sur le devant de la scĂšne: est-ce que câest lĂ©gal de faire du scraping sur SeLoger?
Et pour cause, les CGUs du site précise comme suit:
« l'Utilisateur s'interdit de procéder à :
l'extraction par transfert permanent ou temporaire de la totalitĂ© ou d'une partie qualitativement ou quantitativement substantielle du contenu d'une ou plusieurs des bases des donnĂ©es accessibles sur le Site Internet [âŠ] »
Et bien, comme le suggĂšre le site, dans un jargon juridique qui nâest pas nĂ©cessairement accessible Ă tous, oui le scraping sur SeLoger est entiĂšrement lĂ©gal!
Comme le souligne lâarticle L342-3 du code de la propriĂ©tĂ© intellectuelle, lorsquâune base de donnĂ©es est mise Ă disposition du public, celui-ci ne peut interdire la rĂ©cupĂ©ration des donnĂ©es.
Et ce Ă deux conditions:
- la rĂ©cupĂ©ration doit ĂȘtre non substantielle
- lâutilisateur a accĂšs aux donnĂ©es de façon âliciteâ
En dâautres termes, totalement lĂ©gal de le faire, tant que vous ne rĂ©cupĂ©rez pas la totalitĂ© du site, câest Ă dire une partie dite ânon substantielleâ.
Pour avoir un aperçu complet de nos informations Ă ce sujet, nâhĂ©sitez pas Ă consulter notre article dĂ©diĂ©, juste lĂ : https://lobstr.io/blog/data-scraping-illegal.
Attention, câest en anglais. CrustacĂ© et polyglotte.
1. Lobstr.io
Lobstr.io est une sociĂ©tĂ© crĂ©Ă©e en 2019, et basĂ©e en France. Nous vous permettons de scraper la donnĂ©e dont vous avez besoin. Avec deux offres distinctes: vous pouvez soit collecter de la donnĂ©e Ă partir de lâun des scrapers dĂ©jĂ dĂ©veloppĂ© et prĂ©sent sur notre boutique, soit faire une demande auprĂšs de lâĂ©quipe technique et dĂ©velopper prĂ©cisĂ©ment le robot dont vous avez besoin.
đŠ
Sans biais aucun (pince), il faut reconnaĂźtre que lâoutil est particuliĂšrement robuste.
Tout dâabord, lâUX est simple Ă prendre en main, et particuliĂšrement intuitive. Il suffit de choisir le scraper depuis notre boutique, prĂ©cisĂ© votre URL de recherche SeLoger e.g. https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10 et appuyer sur âLaunchâ. Facile!
Une fois la collecte lancĂ©e, lâinterface communique abondamment, avec des indicateurs prĂ©cis et nombreux: chronomĂštre, liste de rĂ©sultats, statut de la collecte.
Pour chaque annonce, le scraper rĂ©cupĂšre 35 attributs distincts. Avec les attributs usuels: taille de lâappartement, prix, type de bien, code postal. Et lâensemble des attributs avancĂ©s: photos, tags, URL de la visite virtuelle, tĂ©lĂ©phone de lâagence.
Par ailleurs, vous pouvez bĂ©nĂ©ficier, Ă vie, de 15 minutes dâextraction gratuite par jour. Ce qui reprĂ©sente, approx. 350 annonces rĂ©cupĂ©rables par jour totalement gratuitement. Le premier plan commence Ă 20 EUR, avec 1h de collecte par jour soit 1500 annonces par jour, ce qui en fait la solution la plus compĂ©titive du marchĂ©.
En plus de la collecte traditionnelle, vous pouvez paramétrer un lancement à heure réguliÚre. Par exemple, lancer le scraper tous les jours de la semaine à 8h du matin. Et vous allez également pouvoir recevoir vos données de façon automatique: par mail, déposé sur un bucket s3, ou directement exporté sur une googlesheet de votre choix.
Enfin, pour les plus nerds dâentre vous, vous pouvez piloter le lancement et la rĂ©cupĂ©ration du robot directement depuis notre API documentĂ©e, disponible ici: https://lobstrio.docs.apiary.io/.
Si vous avez besoin d'un tutoriel exhaustif, avec des démonstrations image par image, des cas d'utilisation et une description des fonctionnalités avancées, veuillez consulter notre tutoriel complet sur l'extraction des annonces SeLoger, disponible juste ici.
A qui sâadresse cet outil de scraping?
Lobstr.io sâadresse Ă lâutilisateur qui souhaite utiliser un outil no-code robuste et simple dâutilisation, ou au dĂ©veloppeur/Ă la startup qui souhaite dĂ©ployer une solution programmatique at scale directement via lâAPI.
Pros
- UX ludique
- 15 minutes gratuites chaque jour
- 25 annonces par minutes
- 35 attributs
- collecte scalable
- lancement régulier
- export automatique
- API dédiée
Cons
- scraper non customisable
2. Axiom.ai
Axiom.ai est une sociĂ©tĂ© allemande, crĂ©Ă©e en 2018, et basĂ©e Ă Berlin en Allemagne. Sehr erfreut! GrĂące Ă leur add-on Chrome, vous pouvez construire directement depuis votre navigateur lâautomatisation quâil vous plaĂźt, en sĂ©lectionnant avec votre souris les zones de texte Ă rĂ©cupĂ©rer, et la façon dont vous passez Ă la page suivante.
Disons le clairement ici: il sâagit du produit avec lâutilisation la plus fluide et la plus ludique du marchĂ©! Il suffit de tĂ©lĂ©charger lâadd-on Chrome, vous rendre sur le site de SeLoger sur lâURL ciblĂ© e.g. https://www.seloger.com/list.htm?projects=2&types=2,4,1,9,12,14,13,11,3,10. Ensuite cliquer sur les zones sur lesquelles on souhaite rĂ©cupĂ©rer les donnĂ©es â lĂ oĂč se trouve le titre, le prix ou le type dâappartement. Et enfin prĂ©ciser la façon dont vous souhaitez passer Ă la page suivante. Ici en cliquant sur le bouton suivant.
Lâadd-on propose par ailleurs des features additionnelles supplĂ©mentaires intĂ©ressantes, avec la possibilitĂ©, comme sur lobstr, de lancer lâautomatisation Ă frĂ©quence rĂ©pĂ©tĂ©e, ou dâexporter les donnĂ©es directement vers une googlesheet.
En termes de prix, vous pourrez profiter dâun plan gratuit Ă vie, avec 2h de collecte gratuites. Et 30h de collecte par mois Ă partir de 15 USD par mois. Une solution qui est donc approximativement 2 fois plus chĂšre que la solution prĂ©cĂ©dente, mais intĂ©ressante pour de petits volumes de donnĂ©es.
Toutefois, Ă lâusage et de façon concrĂšte, la solution ne fonctionne pas. La sĂ©lection des attributs est fastidieuse, imprĂ©cise et redondante. Et Ă notre grand dĂ©sarroi, sur les 100 lignes de donnĂ©es que nous nous attendions Ă rĂ©cupĂ©rer, seulement 2 lignes de donnĂ©es rĂ©cupĂ©rĂ©s.
Par ailleurs, la solution ne contourne pas la bot mitigation du site. AprĂšs un certain temps dâusage, un captcha apparaĂźt, et sauf erreur de ma part, il semble impossible de le rĂ©soudre de façon programmatique. C'est-Ă dire quâil ne sera ni possible de programmer une collecte rĂ©guliĂšre, ni possible de collecter de la donnĂ©e at scale.
A qui sâadresse cet outil de scraping?
Lâinterface est trĂšs ludique! mais sans surprise avec ce type dâoutil, il faut un peu de maĂźtrise pour pouvoir le paramĂ©trer de façon prĂ©cise, et obtenir des rĂ©sultats consistants dans le temps. Lâoutil s'adresse donc Ă un head of Growth, Ă lâaise avec une interface low-code, avec quelques connaissances de code.
Définitivement pas à la portée du premier venu!
La documentation semble toutefois de bonne qualité, et prometteuse pour celui qui a du temps à y consacrer.
Pros:
- UX trĂšs ludique
- customisation infinie
- 120 minutes par mois gratuitement
- pricing accessible
Cons:
- collecte incomplĂšte
- captcha non géré
- récupération fastidieuse des attributs
- documentation complexe
3. ScrapingBee
Scrapingbee.com est une sociĂ©tĂ© française, crĂ©Ă©e en 2019, et basĂ©e (elle aussi!) en France. Elle propose Ă ses utilisateurs une API de scraping, avec la promesse forte suivante: utiliser leur API et ne plus jamais ĂȘtre bloquĂ© par un outil de bot mitigation. Avec la prise en charge des headers, des proxies, ou de lâactivation javascript.
SeLoger est pourtant particuliĂšrement bien protĂ©gĂ©, puisquâil travaille avec Datadome, une sociĂ©tĂ© française spĂ©cialisĂ©e dans la bot-mitigation, comme nous lâavons dĂ©crit abondamment ici. La sociĂ©tĂ© se charge de dĂ©tecter les visiteurs dits âindĂ©sirablesâ, câest Ă dire les ârobotsâ pour dĂ©crire ça grossiĂšrement, et de les Ă©liminer.
Nous allons voir si la solution tient ses promesses!
Lâinterface est vraiment superbe! Le âRequest Builderâ a Ă©tĂ© particuliĂšrement bien pensĂ©, et permet de construire la requĂȘte de façon particuliĂšrement simple et rapide. Et en cas de doute, on peut sâappuyer sur une documentation exhaustive et prĂ©cise.
Du cÎté de l'UX, c'est à nouveau un grand plaisir. On va pouvoir générer du code dans toutes les langues, et de la possibilité de lancer le code en appuyant simplement sur un bouton.
CĂŽtĂ© prix, vous disposez de 1000 crĂ©dits gratuits. Avec des prix OK: 100 000 crĂ©dits pour 50 USD, soit approx. 1500 pages de rĂ©sultats par mois. 3 fois plus cher que lobstr, mais toutefois accessible. Par ailleurs, le nombre de crĂ©dits consommĂ©s par requĂȘte est clair, et pas de facturation en cas dâerreur. De ce cĂŽtĂ©-lĂ , la promesse est tenue. You shall pass, or you shall not pay.
đ§ââïž
Malheureusement, malgrĂ© nos multiples essais, la solution ne fonctionne pas. Nous avons bien sĂ©lectionnĂ© les options les plus furtives, afin de contourner la bot mitigation Datadome, mais le rĂ©sultat reste le mĂȘme: 500 failure!
@scrapingbee, si vous passez par lĂ et que la solution fonctionne Ă nouveau, nâhĂ©sitez pas Ă nous solliciter pour quâon puisse mettre Ă jour notre sĂ©rie de tests!
A qui sâadresse cet outil de scraping?
A un ou des dĂ©veloppeurs! Qui ont envie de dĂ©velopper leur propre script de scraping, avec les avantages que ça comporte: flexibilitĂ©, rapiditĂ© d'intervention, propriĂ©tĂ© intellectuelle. Attention, il faut donc absolument sây connaĂźtre en dĂ©veloppement informatique.
A cette condition toutefois, et sous rĂ©serve que lâoutil fonctionne Ă nouveau, il sâagit dâune jolie solution de scraping, claire, facile Ă utiliser et prĂ©cisĂ©ment documentĂ©e.
Pros:
- UX trĂšs clair
- documentation exhaustive
- lancement facile
- données bruts
- 1000 crédits gratuits
- 50 USD avec approx. 1500 pages de données
Cons:
- ne fonctionne pas (!)
- il faut savoir coder
Conclusion
Et voilà , la phase de test est terminée!
Au final, lobstr est la seule solution qui permette une collecte valide, exhaustive et compĂ©titive. Les deux autres solutions semblent chacune intĂ©ressantes, avec des promesses fortes de souplesse et de flexibilitĂ©. Toutefois, Ă lâĂ©preuve du rĂ©elle, aucune ne parvient Ă renvoyer des donnĂ©es prĂ©cises et exhaustives, et ce de façon rĂ©pĂ©tĂ©e dans le temps.
Un test unique nâest toutefois jamais suffisant pour sâassurer de la viabilitĂ© dâune solution. NâhĂ©sitez pas Ă tester Ă©galement de votre cĂŽtĂ©, et Ă vous forger votre propre opinion!
En espĂ©rant que cet article vous aura donnĂ© des pistes utiles dâexploration.
Happy scraping!
đŠ
Co-founder @ lobstr.io depuis 2019. Fou de la data et amoureux zélé du lowercase. Je veille à ce que vous ayez toujours la donnée que vous voulez.