Kaggle es la comunidad de ciencia de datos más grande que hay. En su página web se pueden encontrar cuadernos de jupyter de toda la comunidad, una gran cantidad de datos reales para utilizar, un foro, cursos, y competiciones.
Para este proyecto vamos a utilizar un dataset que podamos abordar como un problema de regresión, te dejaremos como recurso la siguiente competición de Kaggle: Regression of Used Car Prices , solo como sugerencia en caso de no encontrar un dataset adecuado, más instamos a la autenticidad de vosotrxs!
EL proyecto es Grupal
- Será necesario entregar una captura de pantalla con el score logrado y la posición en el leaderboard.
- Repositorio de Github con el Notebook y otros ficheros que consideres usar
- 2 semanas.
- Jupyter Notebook, Kaggle Notebooks
- Numpy, Pandas, sklearn, Optuna
- Matplotlib, Pyplot, Seaborn
✅ Un modelo de ML funcional que prediga una variable numérica (ej: precio de una casa, ventas, tiempo de entrega, etc.).
✅ Análisis exploratorio de los datos (EDA) con visualizaciones relevantes para regresión (scatter plots, distribución de la variable objetivo, correlaciones, etc.).
✅ Overfitting inferior al 5% (diferencia aceptable entre métricas de entrenamiento y validación).
✅ Una solución que productivice el modelo (Streamlit, Gradio, API, Dash, etc.).
✅ Informe del rendimiento del modelo con métricas de regresión (RMSE, MAE, R², etc.) y explicación de su performance (feature importance, residuos, gráficos de predicción vs real).
✅ Modelo de ML con técnicas de ensemble (Random Forest, Gradient Boosting, XGBoost, etc.).
✅ Uso de técnicas de Validación Cruzada (K-Fold, Leave-One-Out).
✅ Optimización del modelo con ajuste de hiperparámetros (GridSearch, RandomSearch, Bayesian Optimization).
✅ Sistema de recogida de feedback para monitorizar la performance del modelo en producción (métricas en tiempo real).
✅ Sistema de recogida de datos nuevos para futuros reentrenamientos (pipeline de ingestión de datos).
✅ Versión dockerizada del programa.
✅ Guardado en bases de datos de los datos recogidos por la aplicación (SQL, MongoDB, etc.).
✅ Despliegue (AWS, GCP, Azure, render, vercel, etc.).
✅ Inclusión de test unitarios (validación de preprocesamiento, métricas mínimas aceptables, etc.).
✅ Sistemas de entrenamiento y despliegue automático (MLOps) con:
- 🔹 A/B Testing para comparar modelos.
- 🔹 Monitoreo de Data Drift para detectar cambios en la distribución de los datos.
- 🔹 Auto-reemplazo de modelos solo si la nueva versión supera métricas predefinidas.
- Competencia: Evaluar conjuntos de datos utilizando herramientas de análisis y de visualización de datos
- Competencia: Aplicar algoritmos de aprendizaje automático según el problema, identificando y resolviendo problemas clásicos de inteligencia artificial