Comment scraper des données sur SeLoger sans code et gratos?

Sasha Bouloudnine
May 20, 2022
4 min read

Overview

SeLoger est un site web français de premier plan dans le domaine de l'immobilier. Il enregistre chaque année des milliers de milliers d'annonces fraîches, provenant principalement d’annonceurs professionnels. Nos agences immobilières et leur impeccable travail de chasse. Selon cet excellent article d'Immomatin, publié en février 2020, SeLoger est le deuxième site immobilier le plus populaire en France, avec 5,74 millions en novembre 2019, contre 12,00 millions pour Leboncoin, et 3,47 millions pour Bien’Ici.

En plus d'être très populaire, SeLoger fournit des ensembles de données extrêmement qualitatives - avec des informations claires et structurées. Bien sûr, on retrouvera ici les points de données habituels liés à l'immobilier, tels que la zone, le prix ou le quartier, comme disponible ci-dessous:

Mais on trouvera également, plus inhabituel! des éléments plus précis et plus nécessairement plus précieux, tels que la date de disponibilité, le type de surface extérieure, le type de cuisine, la climatisation...

Pourquoi ne pas récupérer tous ces précieux points de données à l'aide d'un script Python rapide ? Quelques lignes de code… voilà…

import requests
r = requests.get("https://www.seloger.com/")
with open('response_seloger.htm', 'w') as f:
    f.write(r.text)

Pourtant, quand on ouvre la réponse... quelle horreur !

Bien que la collecte de données publiques sur Internet soit une activité entièrement légale, le site web est protégé par datadome. Il s’agit d’une société de ‘bot-mitigation’ basée en France, dont le but est d'identifier et de détruire les utilisateurs considérés (à tort !) comme des bots. Une véritable histoire de western...

Dans ces conditions, comment collecter des données à l'échelle sur SeLoger, sans code ? Et gratuitement ? Est-ce même possible ?

Setup

Heureusement, nos fantastiques équipes de développement ont déployé pour vous un formidable crawler prêt à l'emploi. Tout d'abord, allez sur la page dédiée au crawler, disponible juste ici :

https://lobstr.io/store/a7e1864ab37570369c69a68d1b943d8b/seloger-iter-listings

Et cliquez simplement sur 'Start Now!'. Let's go!

Si vous cliquez sur la petite icône, juste à côté de "Output", vous pourrez télécharger un échantillon de 100 lignes. En un clic. C'est gratuit. De rien.

Ensuite, allez sur SeLoger, et choisissez tous les filtres dont vous avez besoin : type de structure immobilière, emplacement, filtres de prix... Une fois terminé, copiez-collez l'URL de votre navigateur. Et gardez-la précieusement, par exemple:

https://www.seloger.com/list.htm?projects=1&types=2&places=[{%22divisions%22:[2248]}]&mandatorycommodities=0&enterprise=0&qsVersion=1.0&m=search_hp_last

A nous la Corse! l'été y est magique.

Maintenant, en revenant dans notre espace de lancement lobstr, il va falloir copier-coller l'URL (1) que l’on s’est gardés sous la main, puis cliquez sur Enregistrer (2) :

Si vous cliquez sur "Add Input", vous pouvez suivre les listes de plusieurs URL de recherche, les uns après les autres ! Vous pouvez également jouer avec le paramètre avancé "Max Pages" pour stopper la collecte une fois une certaine page atteinte. Tout est dit.

Enfin, puisque nous voulons lancer notre crawler une seule fois manuellement - c'est une démo, n’est-ce pas ? - nous allons amicalement cliquer sur Manually (1) et Save (2) :

Launch

Le moment est venu... lançons la machine !

Il suffit de cliquer sur le bouton "Lancer", dans le coin supérieur droit de l'écran :

Et c'est parti ! Le crawler fonctionne maintenant à pleine vitesse - il collecte environ 20 listings par minute :

Avec 15 minutes libres par jour (pour toujours), vous pouvez ainsi collecter pas moins de 300 nouvelles listes par jour. C'est considérable. C'est gratuit.

Enjoy

Après quelques secondes, les données sont entièrement disponibles - et, espérons-le, juteuses :

Cliquez simplement sur le gros bouton rouge en haut à droite - l'éléphant dans la pièce - et profitez de votre ensemble de données Seloger complet. Un ensemble de données que vous avez collecté sans code, en quelques secondes et gratuitement.

En l'ouvrant avec Numbers, vous apprécierez l'exhaustivité et la qualité d'un ensemble de données entièrement propre, structuré et utilisable :

Finalement, nous avons collecté 17 listings, en 88 secondes exactement, soit une vitesse de collecte constante de 6 listings par seconde. Propre. Rapide.

Vous bénéficierez chaque jour de 15 minutes de collecte gratuite. Pour toujours. Si vous avez besoin d'un forfait plus élevé, n'hésitez pas à consulter notre tableau des prix, avec des offres extrêmement compétitives, à partir de 20 EUR par mois, avec 1h de collecte de données par jour.

Conclusion

SeLoger est un flux de données incontestable pour l'immobilier en France, notamment pour les annonces liées aux professionnels. Bien que protégé par des solutions avancées de lutte contre les robots, vous serez en mesure, avec lobstr, de collecter des données à grande échelle.

Sans code. Sans argent. En quelques secondes. Bon scraping!

🦞

1516989175726.jpegSasha Bouloudnine

Co-founder @ lobstr.io depuis 2019. Fou de la data et amoureux zélé du lowercase. Je veille à ce que vous ayez toujours la donnée que vous voulez.

Related Articles