Skip to content

Comments

Cria spider rj_paraty#1363

Open
Gabriel-gag wants to merge 1 commit intookfn-brasil:mainfrom
Gabriel-gag:rj_paraty
Open

Cria spider rj_paraty#1363
Gabriel-gag wants to merge 1 commit intookfn-brasil:mainfrom
Gabriel-gag:rj_paraty

Conversation

@Gabriel-gag
Copy link

@Gabriel-gag Gabriel-gag commented Feb 12, 2025

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

  • O layout não se parece com nenhum caso da lista de layouts padrão
  • É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
  • É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

  • O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
  • O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
  • O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
  • Explicitar o atributo de classe end_date não se fez necessário.
  • Não utilizo custom_settings em meu raspador.

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.
    completa.csv
    completa.log
    intervalo.csv
    intervalo.log
    ultima.log

há um erro no coleta completa, pois a edição nº 0064/2018 está com o link quebrado (https://www.paraty.rj.gov.br/API/Areas/Admin/Conteudo/Documento/fb86040b-8560-4328-85e1-120e7e0cef6c.doc) no site da prefeitura

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

resolve #1205
Cria spider para rj_paraty

@slfabio
Copy link
Collaborator

slfabio commented Feb 12, 2025

Código revisado. Não tenho sugestões de melhorias.

Copy link

@firefueled firefueled left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Massa!

  • O Layout é novo mesmo
    • deve ser baseado no BaseGazetteSpider
  • atributos
    • name
    • TERRITORY_ID
    • allowed_domains
    • start_urls N/A
    • start_date
    • end_date N/A
    • start_requests() existe
    • parse() existe
  • roda?
    • uma data?
    • um intervalo?
  • evidências
    • tabela de coleta?
    • log?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

Status: novo

Development

Successfully merging this pull request may close these issues.

[Novo spider]: Paraty-RJ

3 participants