Para o Querido Diário ter os municípios da Associação de Municípios de Goiás é necessário:
- ✅: Ter o raspador para coletar os documentos no site da associação
- Pendente: Ter, neste repositório, o segmentador para tratar os arquivos, fatiando um documento agregado em partes individuais para cada um dos municípios da associação
Tarefa
Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.
Modificações necessárias
- No diretório segmentation/segmenters/, criar um novo segmentador, que implementa o segmentador base AssociationSegmenter, como faz o al_associacao_municipios.py
- Adicionar um novo item em
territory_to_segmenter_class do arquivo factory.py usando o mesmo TERRITORY_ID do raspador.
Como testar
Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.
Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos .txt para cada uma.
Valide se os arquivos .txt gerados correspondem à segmentação esperada utilizando amostras.
Para o Querido Diário ter os municípios da Associação de Municípios de Goiás é necessário:
Tarefa
Esta associação usa um padrão conhecido e já em uso no repositório para a Associação de Alagoas. Então o caminho de implementação já existe, faltando criar o segmentador específico.
Modificações necessárias
territory_to_segmenter_classdo arquivo factory.py usando o mesmoTERRITORY_IDdo raspador.Como testar
Será necessário executar o raspador da associação para processar os documentos. Para isso, configure o repositório de raspadores e o data-processing de acordo com a documentação de configuração de ponta-a-ponta do QD.
Seu parser deve ser capaz de segmentar cada documento por prefeitura (atos de consórcios, associações, etc. devem ser ignorados por enquanto) e gerar novos arquivos
.txtpara cada uma.Valide se os arquivos
.txtgerados correspondem à segmentação esperada utilizando amostras.