Skip to content

Modifier masterspider.py risque de casser des spiders existantes #61

@DavidBruant

Description

@DavidBruant

Aujourd'hui, une spider est constituée de :

  • sa configuration (dont les XPath)
  • le code de masterspider.py qui tourne avec la configuration en argument

Quand on modifie la configuration ou masterspider.py (ou une dépendance de masterspider.py), on prend le risque de casser l'araignée en question

A priori, une fois que la configuration d'une spider est faite, il n'y a pas de raison de la modifier sauf si le site visé a changé

Par contre, masterspider.py est changé à chaque fois qu'un nouveau cas de site web est trouvé ou à chaque fois qu'un bug lié à ce fichier est trouvé. Quand un tel changement a lieu, il n'est actuellement pas possible facilement de savoir si l'on a cassé une spider existante. On peut seulement l'espérer.
Actuellement, la manière la plus efficace de vérifier que l'on n'a rien cassé est de tester à la main toutes les configurations de spider existantes avec le nouveau code. La détection d'un bug suite à cette vérification peut amener à un nouveau changement sur masterspider.py...

masterspider.py a changé et va encore changer et encore dans le futur, de manières que l'on n'a pas encore prévu

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions