Ce projet vise à automatiser la surveillance des prix des livres d’occasion sur le site Books to Scrape afin d’aider Books Online, une librairie en ligne, à mieux suivre la concurrence.
Le programme est un scraper Python qui extrait les informations tarifaires et les enregistre sous forme exploitable pour des analyses ultérieures.
- Pré-requis
Assurez-vous d’avoir Python 3.x installé. Vérifiez avec :
python --version
- Installation des dépendances
Clonez ce repository et installez les modules nécessaires :
git clone https://github.com/sRuiiit/BookPriceScraper.git
cd BookPriceScraper
pip install -r requirements.txt
Si vous utilisez un environement virtuel :
python -m venv env
source env/bin/activate # Sur macOS/Linux
env\Scripts\activate # Sur Windows
pip install -r requirements.txt
- Lancer le scraper
Exécutez le script :
python scraper.py
Cela générera un dossier CSVparcategories contenant un fichier CSV par catégorie lui-même contenant les informations des livres extraits.
Les données sont enregistrées sous forme de fichier CSV avec les colonnes suivantes :
titre | prix | disponibilite | image_url | image_locale |
---|---|---|---|---|
Livre 1 | £45.17 | in stock | https://... | images_couvertures/travel/... |
Livre 2 | £49.43 | in stock | https://... | images_couvertures/cat.../... |
Pour aller plus loin, ce scraper pourrait être intégré dans un pipeline ETL en plusieurs étapes :
L’utilisation de cron jobs ou d’un scheduler Python permettrait d’automatiser ce processus.
Steve Raffner 📩 Contact : [email protected] 🔗 GitHub : https://github.com/sRuiiit
💡 N’hésitez pas à contribuer ou à poser des questions ! 🚀