Comment scraper anonymement avec Python et des Tor Proxies?

Sasha Bouloudnine●

16 Dec 2022

●

5 min read

Contents

Lorsque l’on fait du scraping en ligne, en utilisant son propre serveur ou ordinateur, il peut arriver que l’on soit bloqué par le site web cible, qui bloque alors l’adresse IP. Il s’agit d’un hardblock, qui rend toute collecte supplémentaire difficile. Par exemple, sur le site https://www.carrefour.fr/, protégé par l’outil de bot-mitigation fourni par https://www.cloudflare.com/.

how-to-scrape-data-anonymously-using-tor-proxies-with-torpy-and-python-image-1.png

Il est alors particulièrement tentant d’utiliser un fournisseur de proxy externe, comme le solide https://brightdata.com/, ou le très bon et facile d’utilisation https://www.scrapingbee.com/. Et ainsi changer d’IP pour masquer sa vraie identité et contourner le blocage. Toutefois, ces fournisseurs proposent souvent un service coûteux — 0.5 EUR par GB chez brightdata par exemple.

Dans ce tutoriel, nous allons voir comment utiliser le réseau de proxies de Tor, l’acronyme anglais de The Onion Router, avec Python 3 et Torpy pour naviguer en ligne. Il s’agit d’un réseau collaboratif et décentralisé, où le message envoyé passe par une série d’identités distinctes avant d’arriver à destination, ce qu’on appelle le Onion Routing.

how-to-scrape-data-anonymously-using-tor-proxies-with-torpy-and-python-image-2.png

D’où ce joli logo qui prend la forme d’un oignon. Le code complet est disponible ici.

En avant!

Prérequis

Afin de réaliser ce tutoriel de bout en bout, soyez sur d’avoir les éléments suivants installés sur votre ordinateur.

Vous pouvez cliquer sur les liens ci-dessous, qui vous dirigeront soit vers un tutoriel d’installation, soit vers le site en question.

Pour préciser l’utilité de chacun des éléments cités ci-dessus: python3 est le langage informatique avec lequel nous allons scraper le pdf, et SublimeText est un éditeur de texte. Sublime.

À nous de jouer!

Installation

On va procéder comme suit:

télécharger tor
installer tor
installer torpy

Pour la première étape, il suffit de se rendre ici: https://www.torproject.org/download/

Télécharger ensuite le navigateur qui correspond à votre système d’exploitation. Ici pour moi, Mac OS:

how to scrape data anonymously using Tor proxies with Torpy and Python?-image-3.png

Et suivez tranquillement les instructions d’installation:

how to scrape data anonymously using Tor proxies with Torpy and Python?-image-4.png

Enfin, on va installer la librairie Python Torpy, et requests qui permet de se déplacer sur Internet avec Python :

$ pip3 install requests
$ pip3 install torpy
f

Et voilà, nous sommes prêts à scraper.

NB: avec 273 stars, 43 forks, et un commit le plus récent en date du 15/04/2021, la librairie Torpy est la librairie d’accès à Tor via Python 3 la plus populaire, la plus facile d’utilisation, et la mieux maintenue

🌟

Le code

Voilà le code en intégralité:

# On importe la classe TorRequests depuis la librairie torpy
from torpy.http.requests import TorRequests
print('start')

with TorRequests() as tor_requests:

    # On réalise un première requête vers ipify.org pour connaître notre adresse IP
    print("build circuit #1")
    with tor_requests.get_session() as sess:
        print(sess.get("https://api.ipify.org/").text)

    # On réalise un première requête vers ipify.org pour connaître notre adresse IP
    print("build circuit #2")
    with tor_requests.get_session() as sess:
        print(sess.get("https://api.ipify.org/").text)

print('~~success')
f

Le code se décompose en 3 parties distinctes:

on import de la librairie torpy
on instancie une session Tor
on requête https://api.ipify.org/ qui nous renvoie notre adresse IP

Et lorsque qu’on exécute le code depuis le terminal:

$ python3 torpy-tor-proxies-python-tutorial.py
start
build circuit #1
185.220.100.252
build circuit #2
185.220.101.33
~~success
f

On voit donc bien qu’à chaque fois qu’une session est ouverte, une nouvelle adresse IP nous est assignée.

C’est un succès total!

✨

Bénéfices

Ce code va vous permettre, en 50 secondes, d’accéder, depuis Python 3 et à l’aide de la librairie Torpy, au réseau de proxies Tor.

Or d’après Tor Metrics, le réseau compte en 2022 de 1000 à 2000 adresses IPs de sortie, ce qu’on retrouve à la place de exit. C’est à dire que vous allez pouvoir vous appuyez sur un pool d’IPs de cette taille là

how-to-scrape-data-anonymously-using-tor-proxies-with-torpy-and-python-image-5.png](https://d37gzvgyugjozl.cloudfront.net/how_to_scrape_data_anonymously_using_Tor_proxies_with_Torpy_and_Python_image_5_1389f70a83.png)

Autrement dit, vous allez pouvoir

utiliser un pool de 1000-2000 adresses IPs
anonymiser votre navigation
gratuitement

Magnifique!

🧅

Limitations

Attention, si le réseau d’IPs est gratuit, la taille du réseau est relativement petite. A titre de comparaison, le fournisseur de proxies leader du marché Brightdata promet un réseau de plus de 1.5 millions d’adresses IPs de datacenter. 1000 fois plus grand, rien que ça.

Par ailleurs, en plus d’être de petite taille et accessible par tous, le réseau est utilisé lors de la navigation sur le Darknet, et prendre part à des activités plus ou moins légales. Aussi, vous prenez le risque d’être rapidement bloqué par un site cible.

Vous pouvez toutefois normalement accéder à Google, quand vous avez un peu de chance:

how-to-scrape-data-anonymously-using-tor-proxies-with-torpy-and-python-image-6.png

Enfin, puisqu’il faut passer par un réseau de serveurs afin de garantir l’anonymat de la requête, le fameux Onion Routing, la vitesse de requête est relativement lente. Ainsi, si on calcule la requête d’accès à https://api.ipify.org/, entre le réseau Tor et une IP classique de chez Brightdata, on a une différence de vitesse de 1 à 4.

Le résultat du script ci-dessous:

$ python3 test-speed-tor-vs-brightdata.py

tor
ip 185.82.127.25
delay 3.131886832998134

brightdata
ip 185.255.166.252
delay 0.8867947079997975

~~success
f

Avancer masqué oui, mais avancer lentement.

🐌

Conclusion

Et c’est la fin du tutoriel!

Dans ce tutoriel, nous avons vu comment utiliser les proxies du réseau Tor avec Python 3, et Torpy, la dernière librairie la plus facile d’utilisation du marché.

Si vous avez des questions, ou si vous avez besoin d’un service de scraping sur-mesure, solide et scalable, capable d’utiliser un pool d’IPs vaste et performant, contactez-nous ici.

Happy scraping!

🦀

Related Squids

Try lobstr.io for free today!

No captcha free data

Start now

Comment scraper anonymement avec Python et des Tor Proxies?

Prérequis

Installation

Le code

Bénéfices

Limitations

Conclusion

TAGS

Related Articles

Related Squids