Proyecto de Optimización de Talento - Módulo 3

📋 Descripción del Proyecto

Este proyecto de análisis de datos de Recursos Humanos tiene como objetivo averiguar por qué se han marchado los empleados de la empresa y proporcionar insights valiosos para mejorar la retención del talento.

El análisis se basa en un dataset de recursos humanos que contiene información sobre empleados activos y desvinculados, incluyendo variables demográficas, laborales, de satisfacción y compensación.

🎯 Objetivos

Identificar los factores principales que influyen en la desvinculación de empleados
Analizar patrones y correlaciones en los datos de recursos humanos
Crear visualizaciones que faciliten la comprensión de los hallazgos
Proporcionar recomendaciones basadas en datos para mejorar la retención del talento

📁 Estructura del Proyecto

Datasets

HR RAW DATA.csv: Dataset original sin procesar
HR_RAW_v2.csv: Dataset después de la limpieza básica
HR_RAW_v3.csv: Dataset final procesado con todas las transformaciones aplicadas
Tabla columnas.png: Imagen de referencia con información sobre las columnas

Notebooks de Análisis

📊 PARTE 1: Análisis Exploratorio de Datos (EDA)

Archivo: PARTE-1_project-da-promo-52-modulo-3-team-4-EDA.ipynb

Contenido:

Exploración inicial del dataset original
Análisis de la estructura y dimensiones de los datos
Identificación de tipos de datos y valores únicos
Detección de problemas en los datos (valores nulos, inconsistencias, etc.)
Función personalizada eda_basico() para análisis sistemático

Principales hallazgos:

Dataset con 1,614 registros y 41 columnas
Múltiples problemas de calidad de datos identificados
Necesidad de normalización y limpieza extensiva

🧹 PARTE 2: Limpieza de Datos

Archivo: PARTE-2_project-da-promo-52-modulo-3-team-4-LIMPIEZA.ipynb

Contenido:

Renombrado de columnas al español con nomenclatura normalizada
Eliminación de columnas redundantes o innecesarias (7 columnas eliminadas)
Transformación de tipos de datos:
- Conversión de edades en texto a números
- Limpieza de símbolos monetarios y conversión a float
- Normalización de valores categóricos
Corrección de valores negativos (distancias convertidas de millas a km)
Homogeneización de texto (mayúsculas a minúsculas)
Guardado del dataset limpio como HR_RAW_v2.csv

🔧 PARTE 3: Gestión de Valores Nulos

Archivo: PARTE-3_project-da-promo-52-modulo-3-team-4-NULOS.ipynb

Contenido:

Análisis detallado del porcentaje de valores nulos por columna
Estrategias de imputación diferenciadas:
- Columnas categóricas: Imputación con valores lógicos ("non-travel", "full time", "ns/nc")
- Columnas numéricas: Uso de moda, mediana, KNN Imputer según el caso
Traducción completa de valores al español para mejor interpretación
Renombrado final de columnas para visualizaciones
Generación del dataset final HR_RAW_v3.csv completamente procesado

Técnicas aplicadas:

KNN Imputer para variables continuas correlacionadas
Simple Imputer con estrategia de mediana
Imputación manual basada en conocimiento del dominio

📈 PARTE 4: Visualización de Datos

Archivo: PARTE-4_project-da-promo-52-modulo-3-team-4-VISUALIZACION.ipynb

Contenido:

Definición de paleta de colores corporativos
Prueba de hipótesis sobre las columnas numéricas
Gráfico 1: Comparación de variables emocionales (satisfacción y compromiso)
Gráfico 2: Análisis de historia laboral mediante boxplots
Gráfico 3: Relación entre antigüedad y tiempo con el mismo responsable
Gráfico 4: Análisis de conciliación laboral por tipo de jornada
Gráfico 5: Comparación entre evaluación de desempeño e incremento salarial
Perfil del empleado desvinculado: Análisis demográfico detallado
BONUS: Inserción de datos en SQL

Principales insights:

Empleados desvinculados muestran menor satisfacción en todas las dimensiones
Menor antigüedad y experiencia laboral en el grupo desvinculado
Perfil típico: hombre de 33-34 años con menor satisfacción en conciliación

📊 ETL - Carpeta con el código de ETL (incompleto)

Archivos: main.py funciones.py graficos.py load_sql.py HR RAW DATA.csv HR LIMPIO.csv

Contiene toda la información indicada en todos los puntos anteriores en formato python.

🛠️ Tecnologías Utilizadas

Python 3.x
Pandas: Manipulación y análisis de datos
NumPy: Operaciones numéricas
Matplotlib: Visualización de datos
Seaborn: Visualizaciones estadísticas avanzadas
Scikit-learn: Algoritmos de imputación (KNNImputer, SimpleImputer)

📊 Dataset Final (HR_RAW_v3.csv)

El dataset final procesado contiene:

1,614 registros de empleados
34 columnas después de la limpieza
0 valores nulos (totalmente imputado)
Datos completamente en español para facilitar interpretación
Tipos de datos optimizados para análisis

Principales Variables

Variables demográficas: edad, género, estado civil
Variables laborales: departamento, puesto, antigüedad
Variables de satisfacción: trabajo, relaciones, conciliación
Variables de compensación: salario, incrementos, beneficios

🔍 Principales Hallazgos

Factor Crítico: La satisfacción laboral en múltiples dimensiones es significativamente menor en empleados desvinculados
Perfil de Riesgo: Empleados con menor antigüedad y menor satisfacción en conciliación laboral
Reconocimiento: El sistema de evaluación y compensación funciona correctamente
Demografía: Mayor proporción de hombres en el grupo desvinculado (62%)

🚀 Metodología

El proyecto sigue metodología Agile/Scrum con las siguientes fases:

Exploración → Comprensión inicial de los datos
Limpieza → Preparación y normalización
Imputación → Gestión de valores faltantes
Visualización → Análisis y presentación de insights
Conclusiones → Recomendaciones para la empresa

👥 Equipo

Equipo 4 - Promoción 52 - Módulo 3

Proyecto desarrollado como parte del programa de Data Analytics

📝 Próximos Pasos

Implementación de modelos predictivos de rotación
Desarrollo de dashboard interactivo
Creación de sistema ETL automatizado
Diseño de base de datos optimizada para análisis de HR

🌈 Presentación

https://www.canva.com/design/DAGpmKBoF8w/sCUkzv78Kklt-e5wLq-gfw/edit?utm_content=DAGpmKBoF8w&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton

Este proyecto demuestra el poder del análisis de datos para la toma de decisiones estratégicas en Recursos Humanos, proporcionando insights accionables para mejorar la retención del talento.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Proyecto de Optimización de Talento - Módulo 3

📋 Descripción del Proyecto

🎯 Objetivos

📁 Estructura del Proyecto

Datasets

Notebooks de Análisis

📊 PARTE 1: Análisis Exploratorio de Datos (EDA)

🧹 PARTE 2: Limpieza de Datos

🔧 PARTE 3: Gestión de Valores Nulos

📈 PARTE 4: Visualización de Datos

📊 ETL - Carpeta con el código de ETL (incompleto)

🛠️ Tecnologías Utilizadas

📊 Dataset Final (HR_RAW_v3.csv)

Principales Variables

🔍 Principales Hallazgos

🚀 Metodología

👥 Equipo

📝 Próximos Pasos

🌈 Presentación

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Proyecto de Optimización de Talento - Módulo 3

📋 Descripción del Proyecto

🎯 Objetivos

📁 Estructura del Proyecto

Datasets

Notebooks de Análisis

📊 PARTE 1: Análisis Exploratorio de Datos (EDA)

🧹 PARTE 2: Limpieza de Datos

🔧 PARTE 3: Gestión de Valores Nulos

📈 PARTE 4: Visualización de Datos

📊 ETL - Carpeta con el código de ETL (incompleto)

🛠️ Tecnologías Utilizadas

📊 Dataset Final (HR_RAW_v3.csv)

Principales Variables

🔍 Principales Hallazgos

🚀 Metodología

👥 Equipo

📝 Próximos Pasos

🌈 Presentación