Skip to content

Initialisation du projet - mise en place de l'environement pyCharm / git / github

Notifications You must be signed in to change notification settings

sRuiiit/BookPriceScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 

Repository files navigation

📚 Books Online - Scraper de Prix

Automatisation du suivi des prix des livres d’occasion

Un projet Python pour extraire les prix des livres de Books to Scrape


📝 Description du projet

Ce projet vise à automatiser la surveillance des prix des livres d’occasion sur le site Books to Scrape afin d’aider Books Online, une librairie en ligne, à mieux suivre la concurrence.

Le programme est un scraper Python qui extrait les informations tarifaires et les enregistre sous forme exploitable pour des analyses ultérieures.

🎯 Objectifs

  • Automatiser la collecte des prix des livres sur Books to Scrape.
  • Structurer les données extraites sous un format exploitable (CSV) par catégorie.
  • Récupérer les images de couverture de chaque livre et classer par catégorie.
  • 📂 Contenu du repository

  • scraper.py → Script principal qui extrait les données.
  • requirements.txt → Liste des dépendances à installer.
  • README.md → Ce fichier expliquant le projet.
  • .gitignore → Exclut les fichiers temporaires et les données extraites.
  • 🛠️ Installation et exécution

    1. Pré-requis

    Assurez-vous d’avoir Python 3.x installé. Vérifiez avec :

    python --version

    1. Installation des dépendances

    Clonez ce repository et installez les modules nécessaires :

    git clone https://github.com/sRuiiit/BookPriceScraper.git cd BookPriceScraper pip install -r requirements.txt

    Si vous utilisez un environement virtuel :

    python -m venv env source env/bin/activate # Sur macOS/Linux env\Scripts\activate # Sur Windows pip install -r requirements.txt

    1. Lancer le scraper

    Exécutez le script :

    python scraper.py

    Cela générera un dossier CSVparcategories contenant un fichier CSV par catégorie lui-même contenant les informations des livres extraits.

    📊 Format des données extraites

    Les données sont enregistrées sous forme de fichier CSV avec les colonnes suivantes :

    titre prix disponibilite image_url image_locale
    Livre 1 £45.17 in stock https://... images_couvertures/travel/...
    Livre 2 £49.43 in stock https://... images_couvertures/cat.../...

    🔧 Vers un pipeline ETL

    Pour aller plus loin, ce scraper pourrait être intégré dans un pipeline ETL en plusieurs étapes :

  • Extract → Extraction des données via ce scraper.
  • Transform → Nettoyage et enrichissement des données (ex. conversion des devises).
  • Load → Chargement des données dans une base de données ou un tableau d’analyse.

  • L’utilisation de cron jobs ou d’un scheduler Python permettrait d’automatiser ce processus.

    🚀 Améliorations futures

  • Ajouter des librairies concurrentes pour élargir le suivi des prix.
  • Automatiser le scraping à intervalles réguliers.
  • Stocker les données dans une base SQL ou un tableau interactif.
  • Intégrer une visualisation des tendances de prix.
  • Récupérer le taux de change et afficher le prix en Euros.
  • Utiliser la librairie LXML plus rapide et robuste.
  • 👤 Auteur

    Steve Raffner 📩 Contact : [email protected] 🔗 GitHub : https://github.com/sRuiiit

    💡 N’hésitez pas à contribuer ou à poser des questions ! 🚀

    About

    Initialisation du projet - mise en place de l'environement pyCharm / git / github

    Resources

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published

    Languages