Skip to content

Factoria-F5-dev/ai-project-Regression

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 

Repository files navigation

Proyecto Regression

Proyecto regresion

📝 Descripción del Proyecto

Kaggle es la comunidad de ciencia de datos más grande que hay. En su página web se pueden encontrar cuadernos de jupyter de toda la comunidad, una gran cantidad de datos reales para utilizar, un foro, cursos, y competiciones.

Para este proyecto vamos a utilizar un dataset que podamos abordar como un problema de regresión, te dejaremos como recurso la siguiente competición de Kaggle: Regression of Used Car Prices , solo como sugerencia en caso de no encontrar un dataset adecuado, más instamos a la autenticidad de vosotrxs!

📦 Condiciones de entrega

EL proyecto es Grupal

  • Será necesario entregar una captura de pantalla con el score logrado y la posición en el leaderboard.
  • Repositorio de Github con el Notebook y otros ficheros que consideres usar

⏳ Plazo de Entrega

  • 2 semanas.

🛠️ Tecnologías a usar

  • Jupyter Notebook, Kaggle Notebooks
  • Numpy, Pandas, sklearn, Optuna
  • Matplotlib, Pyplot, Seaborn

🏆 Niveles de Entrega

🟢 Nivel Esencial:

✅ Un modelo de ML funcional que prediga una variable numérica (ej: precio de una casa, ventas, tiempo de entrega, etc.).

✅ Análisis exploratorio de los datos (EDA) con visualizaciones relevantes para regresión (scatter plots, distribución de la variable objetivo, correlaciones, etc.).

✅ Overfitting inferior al 5% (diferencia aceptable entre métricas de entrenamiento y validación).

✅ Una solución que productivice el modelo (Streamlit, Gradio, API, Dash, etc.).

✅ Informe del rendimiento del modelo con métricas de regresión (RMSE, MAE, R², etc.) y explicación de su performance (feature importance, residuos, gráficos de predicción vs real).


🟡 Nivel Medio:

✅ Modelo de ML con técnicas de ensemble (Random Forest, Gradient Boosting, XGBoost, etc.).

✅ Uso de técnicas de Validación Cruzada (K-Fold, Leave-One-Out).

✅ Optimización del modelo con ajuste de hiperparámetros (GridSearch, RandomSearch, Bayesian Optimization).

✅ Sistema de recogida de feedback para monitorizar la performance del modelo en producción (métricas en tiempo real).

✅ Sistema de recogida de datos nuevos para futuros reentrenamientos (pipeline de ingestión de datos).


🟠 Nivel Avanzado:

✅ Versión dockerizada del programa.

✅ Guardado en bases de datos de los datos recogidos por la aplicación (SQL, MongoDB, etc.).

Despliegue (AWS, GCP, Azure, render, vercel, etc.).

✅ Inclusión de test unitarios (validación de preprocesamiento, métricas mínimas aceptables, etc.).


🔴 Nivel Experto:

✅ Sistemas de entrenamiento y despliegue automático (MLOps) con:

  • 🔹 A/B Testing para comparar modelos.
  • 🔹 Monitoreo de Data Drift para detectar cambios en la distribución de los datos.
  • 🔹 Auto-reemplazo de modelos solo si la nueva versión supera métricas predefinidas.

Evaluacion

  • Competencia: Evaluar conjuntos de datos utilizando herramientas de análisis y de visualización de datos
  • Competencia: Aplicar algoritmos de aprendizaje automático según el problema, identificando y resolviendo problemas clásicos de inteligencia artificial

Releases

No releases published

Packages

No packages published