Bem-vindo 🤗 ao repositório de estudos sobre Ciência de Dados, com foco Análises Exploratória de Dados e modelagens em machine learning aplicadas à ciência de dados e análise.
A modelagem em machine learning consiste no processo de criar, treinar e validar modelos computacionais que aprendem padrões a partir de dados. Consiste numa gama de modelagens amplamente utilizados para resolver problemas complexos em diversas áreas, os quais envolvem a previsão (regressão), classificação, agrupamento/segmentação e detecção de anomalias (por exemplo, outliers). Em linhas gerais, o aprendizado de máquina visa projetar, entender e aplicar programas de computador que aprendem com a experiência, consistindo como uma de suas principais tarefas a previsão.
Pode ser empregado em múltiplas aplicações, incluindo pesquisa na web, recomendações de filmes, sistemas automatizados, análise de imagens e jogos. O aprendizado de máquina também está sendo adotado por diferentes disciplinas, como biologia, química e física. Ou ainda, na previsão de eventos futuros, como o valor de mercado de uma ação ou a propensão de determinado paciente adquirir uma doença.
- Exemplos práticos para Análise Exploratória de Dados usando bibliotecas como:
- Matplotlib para criação de gráficos e visualizações;
- Pandas para manipulação e análise de dados;
- Seaborn para visualização e análieses estatística de dados;
- Numpy para computação numérica, incluindo arrays multidimensionais.
- Construção e avaliação de modelos de regressão, classificação e agrupamento usando bibliotecas, como:
- Scikit-learn para modelagens preditivas usando aprendizado de máquina.
- SnapML, desenvolvida pela IBM, com ênfase em alto desempenho e escalabilidade, projetada para lidar com grandes volumes de dados, utilizando técnicas de paralelismo e aceleração por GPU.
- Compartilhar soluções didáticas e bem documentadas para quem está estudando Ciência de Dados, servindo como base de consulta.
-
Introdução ao Aprendizado de Máquina:
- Risco Empírico e a Função de Perda (hinge loss): técnicas comumente usadas para treinar SVMs e outros classificadores lineares
- Gradiente Descendente e Regularização: uma abordagem matemática e computacional aplicada
- Algoritmo Perceptron - introdução as redes neurais
- Função Softmax - técnica essencial de classificação multi-classe
- Função de custo de entropia cruzada com regularização L2 (Log Loss Cross-Entropy)
- Introdução as Redes Neurais
-
Modelagens utilizando Machine Learning:
-
Regressão: problemas cujo objetivo é estimar um valor contínuo baseado ou probabilidade em variáveis de entrada.
-
Classificação: problemas cujo objetivo é atribuir um rótulo discreto a uma entrada.
-
Support Vector Machines (SVM) aplicado à detecção de fraudes em transações
Característica Classificação Regressão Tipo de saída Discreta (categorias) Contínua (números reais) Modelo de decisão Baseia-se em limites de decisão entre classes Baseia-se em funções matemáticas que minimizam erro contínuo Algoritmos comuns k-NN, Árvores de decisão, SVM, Redes Neurais Regressão Linear e Polinomial, Logística, Redes Neurais Métricas de avaliação Acurácia, Precisão, Recall, F1-score RMSE (Root Mean Squared Error), MAE (Mean Absolute Error)
-
Agrupamento/Clustering
-
Comparação de Desempenho Preditivo:
-
Sistema de Classificação para Análise de Sentimentos/Opiniões
-
Este notebook proporciona uma visão prática sobre aprendizado de máquina aplicado à análise de sentimentos em relação a opiniões sobre produtos ou serviços. O objetivo é treinar e avaliar classificadores lineares (Perceptron, Perceptron Médio e Pegasos) para identificar opiniões avaliações positivas (+1) ou negativas (-1).
Tópicos abordados:
- ✅ Implementação e comparação de algoritmos de classificação
- ✅ Ajuste de hiperparâmetros para otimização de desempenho
- ✅ Análise gráfica dos resultados
Assim, é possível entender melhor como construir um "Classificador de Sentimentos/Opiniões sobre Produtos e/ou Serviços", mas também sobre como avaliar e melhorar o desempenho de modelos de aprendizado de máquina.
-

Machine Learning with Python
This credential earner understands the basics of machine learning using Python such as:
Distinguishing the difference between the two main types of machine learning methods: supervised & unsupervised;
Identifying supervised learning algorithms, including classification & regression;
Identifying unsupervised learning algorithms, including Clustering & Dimensionality Reduction;
Determining how statistical modeling relates to machine learning & comparing them;
How machine learning affects society.
- BARROS, Thiago Medeiros. Um processo orientado a dados para geração de modelo de predição de evasão escolar / tese (doutorado) - PPgEEC/UFRN, Natal/RN, 2020.
- GÉRON, A. Hands-On machine learning with scikit-learn, keras & tensorflow farnham. Canada: O’Reilly, 2023.
- GUJARATI, Damodar N. Essentials of econometrics. Sage Publications, 2021.
- PEDREGOSA et al. Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research (JMLR) 12, pp. 2825-2830, 2011.
- Goodfellow et al. Deep Learning. Autores: Ian Goodfellow and Yoshua Bengio and Aaron Courville, MIT Press, 2016. Disponível em: http://www.deeplearningbook.org
Contribuições são bem-vindas! Se você deseja aprimorar as soluções ou adicionar explicações, sinta-se à vontade para abrir um Pull Request.
🚀 Compartilhe conhecimento e inspire futuros cientistas de dados!