Proyectos de Deep Learning

Detección de fraude de tarjetas de crédito

En este proyecto clasificación binaria con Redes Nuronales, se utilizarán datos de pagos online procedentes de tarjetas de crédito. Se han obtenido diferentes parámetros de cada pago online, clasificados en fraudulento o no fraudulento. El objetivo de este proyecto es crear un clasificador automático mediante deep learning que, dado un pago online, lo clasifique como fraudulento o no fraudulento.

La data está relacionada al fichero "detección_fraude_Keras (DL - CLASIFICACIÓN).ipynb" y se puede acceder directamente al Google Colab

Mediante un conjunto de datos

Herramientas de trabajo: Sklearn, Numpy, Pandas, Tensorflow y Keras

Al final hemos onseguido una precisión de: 0.99

Analisis de proyectos de Maching Learning

Se realiza el estudio de 3 conjuntos de datos con la finidad de aplicar algoritmos de Clasificación, Regresión lineal y Clustering. Para todos se desarrolla un Analisis Exploratorio de los Datos, Obtención de caracteristicas, Entrenamiento, optimización y selección de modelos de ML.

Para correr cada proyecto en los notebooks de Google Colab, es necesario porner los ficheros de data csv en el directorio sample_data/ del propio Google Colab.

Accidentes aéreos desde 1908

Un conjunto de datos de 1988 y consta de cuatro bases de datos: Cleveland, Hungría, Suiza y Long Beach V. Contiene 76 atributos, incluido el atributo predicho, pero todos los experimentos publicados utilizan un subconjunto de 14 de ellos. El campo "objetivo" se refiere a la presencia de cardiopatía en el paciente. Su valor es entero: 0 = sin cardiopatía y 1 = con cardiopatía.

La data está relacionada al fichero Accidentes_Aereos (ML - CLUSTERING).ipynb" y se puede acceder directamente al Google Colab

Mediante un conjunto de datos de Kaggle

Se evalua el conjunto de datos con los siguientes Algoritmos:

Para clasificación (Causas del accidente):

Random Forest Classifier
XGBoost Classifier
Logistic Regression (si reduces clases)
Naive Bayes (si haces ingeniería de texto sobre el Summary)
Para regresión (muertes):

Linear Regression

Random Forest Regressor
XGBoost Regressor
Redes neuronales (MLPRegressor)

Para agrupación (no supervisado):

K-Means
DBSCAN
PCA para reducción de dimensionalidad

Metricas recomendadas

MAE (Error Absoluto Medio)
MSE (Error Cuadrático Medio)
R² (Coeficiente de determinación)

Conclusión final, evaluando los 3 tipos de modelos.

Según los datos arrojados, los que dan mejor rendimiento según el tipo, son:

En clasificación: XGBoost con 96%
En regresión: MLPRegressor con MAE: 8.61, MSE: 454.95, R²: 0.60
En Clustering: KMeans, La distribución es más limpia y estructurada comparada con DBSCAN.

Estudio de canales publicitarios

Esta relacionado al fichero "Canales_publicitarios (ML - REGRESION_LINEAL).ipynb" y se puede acceder directamente al Google Colab

Mediante el conjunto de datos de Kaggle, el cual consta de siete columnas que representan los costos publicitarios en diversas plataformas: televisión, vallas publicitarias, Google Ads, redes sociales, marketing de influencers, marketing de afiliación y por último "Product_Sold", que cuantifica el número correspondiente de unidades vendidas, se investiga el impacto de la publicidad en las ventas de productos.

Se evalua el conjunto de datos con los siguientes Algoritmos:

Regresión lineal múltiple
Árboles de decisión / Random Forest
XGBoost / Gradient Boosting
Red neuronal (MLPRegressor de sklearn o Keras)

Anális de cardiopatía

Un conjunto de datos de 1988 y consta de cuatro bases de datos: Cleveland, Hungría, Suiza y Long Beach V. Contiene 76 atributos, incluido el atributo predicho, pero todos los experimentos publicados utilizan un subconjunto de 14 de ellos. Mediante un conjunto de datos de Kaggle (fichero 'sample_data/heart.csv').

El campo "objetivo" (tarjet) se refiere a la presencia de cardiopatía en el paciente. Su valor es entero: 0 = sin cardiopatía y 1 = con cardiopatía.

La data está relacionada al fichero "Cardiopatia (ML - CLASIFICACIÓN).ipynb" y se puede acceder directamente al Google Colab

Por medio de la CLASIFICACIÓN, prediciremos esta enfermedad cardiáca según datos supervisados.

Se evalua el conjunto de datos con los siguientes Algoritmos:

LogisticRegression -> Muy rápido y fácil de interpretar
RandomForestClassifier -> Preciso, maneja variables no lineales
KNeighborsClassifier -> Intuitivo, basado en similitud
XGBoost o LightGBM -> Potentes para datasets más complejos
SVM -> Bueno para datos con bordes no lineales

En conclusión, despues de aplicar diferentes métricas y técnicas de optimización de parámetros, los modelos que han arrojado mayor rendimiento han sido Random Forest y Gradient Boosting, con un valor cercano al 0,99.

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
images		images
sample_data		sample_data
Canales_publicitarios (ML- REGRESION_LINEAL).ipynb		Canales_publicitarios (ML- REGRESION_LINEAL).ipynb
README.md		README.md
accidentes_aereos (ML- CLUSTERING).ipynb		accidentes_aereos (ML- CLUSTERING).ipynb
detección_fraude_Keras (DL - CLASIFICACIÓN).ipynb		detección_fraude_Keras (DL - CLASIFICACIÓN).ipynb
prediccion_cardiopatia (ML- CLASIFICACIÓN).ipynb		prediccion_cardiopatia (ML- CLASIFICACIÓN).ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Proyectos de Deep Learning

Detección de fraude de tarjetas de crédito

Analisis de proyectos de Maching Learning

Accidentes aéreos desde 1908

Estudio de canales publicitarios

Anális de cardiopatía

About

Uh oh!

Releases

Packages

Languages

ktmfranco/projects_master_ds

Folders and files

Latest commit

History

Repository files navigation

Proyectos de Deep Learning

Detección de fraude de tarjetas de crédito

Analisis de proyectos de Maching Learning

Accidentes aéreos desde 1908

Estudio de canales publicitarios

Anális de cardiopatía

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages