Este projeto reúne um conjunto de notebooks e scripts voltados para a construção de um pipeline completo de ciência de dados aplicado à classificação multiclasse. Desde a análise exploratória até a modelagem com diferentes algoritmos, o objetivo é entregar um processo robusto, interpretável e reproduzível.
EDA.ipynb— Análise exploratória de dadosfeature_engineering.ipynb— Engenharia de atributospreprocessing.ipynb— Limpeza, encoding e escalonamentodata_balancing.ipynb— Técnicas de balanceamento de classesdecision_tree.ipynb— Modelo com Árvore de Decisãoknn.ipynb— Modelo K-Nearest Neighborsmultilayer_perceptron.ipynb— Rede Neural MLPxgboost.ipynb— Modelo XGBoostdependencies.py— Avaliação padronizada de modelos
-
Instale as dependências necessárias (scikit-learn, matplotlib, numpy, etc.)
-
Execute os notebooks na ordem sugerida:
EDA → Preprocessing → Feature Engineering → Data Balancing- Em seguida, execute os notebooks de modelos
-
Use
dependencies.pypara avaliar os modelos com:- Relatórios de classificação
- Matrizes de confusão
- Curvas ROC e curvas de calibração
- Normalização e codificação de dados
- Oversampling e undersampling
- Múltiplos algoritmos de classificação
- Avaliação com métricas variadas e visualizações interpretáveis
Criar uma base sólida para projetos de classificação supervisionada com múltiplas classes, podendo ser aplicada a problemas reais de diferentes domínios.