Classificador de Documentos TĂ©cnicos de Infraestrutura utilizando NLP com Transformers đ
Este projeto tem como objetivo classificar automaticamente documentos tĂ©cnicos de infraestrutura, segmentando-os por setores como energia, transporte, saneamento, entre outros. Ideal para organizaçÔes que lidam com grandes volumes de textos tĂ©cnicos e desejam automação inteligente na triagem de conteĂșdos.
- đ Python 3.10+
- đ€ Transformers (Hugging Face)
- đ Scikit-learn
- đ§ź Pandas & NumPy
- đ NLP e Tokenização
- đ» Interface CLI para classificação
# âââ data/ # Pasta para armazenar os dados
# â âââ raw/ # Dados brutos
# â âââ processed/ # Dados limpos e preparados
# âââ notebooks/ # AnĂĄlises e testes exploratĂłrios (Jupyter Notebooks)
# âââ models/ # Modelos treinados salvos
# âââ src/ # CĂłdigo-fonte do projeto
# â âââ __init__.py
# â âââ data_preprocessing.py
# â âââ train_model.py
# â âââ evaluate_model.py
# â âââ inference.py
# âââ app/ # Interface interativa (Streamlit)
# â âââ app.py
# âââ requirements.txt # DependĂȘncias do projeto
# âââ README.md # Descrição do projeto
# âââ .gitignore
Exemplo de bloco
Interface Upload | Exemplo de bloco | Interface de Classificação |
---|---|---|
![]() |
![]() |
![]() |
- đ„ Upload e leitura de documentos .txt
- đ§ Classificação por setor com base no conteĂșdo
- đ RelatĂłrio de performance do modelo
- đŹ Feedback com mĂ©tricas de acurĂĄcia, precisĂŁo, recall, F1
# Clone o repositĂłrio
git clone https://github.com/JaimeMartinsOliveira/infra-doc-classifier.git
cd infra-doc-classifier
# Crie um ambiente virtual
python -m venv venv
source venv/bin/activate # Windows: venv\Scripts\activate
# Instale as dependĂȘncias
pip install -r requirements.txt
# Execute o projeto
python init_project.py
ApĂłs o treinamento, vocĂȘ receberĂĄ mĂ©tricas detalhadas como:
- â AcurĂĄcia
- đŻ PrecisĂŁo
- đ Recall
- đ§ź F1-score
Sinta-se Ă vontade para contribuir! Envie um Pull Request com melhorias, ou abra uma issue para discutir ideias. âš
DistribuĂdo sob a licença MIT. Veja LICENSE
para mais informaçÔes.
Desenvolvido com đ por Jaime Martins Oliveira