Este proyecto consiste en el desarrollo de un framework diseñado para automatizar la recolección, filtrado y obtención de código fuente de repositorios alojados en GitHub. El objetivo principal es generar conjuntos de datos (datasets) e insumos de alta calidad para el entrenamiento de modelos de Aprendizaje Automático (Machine Learning) y Aprendizaje Profundo (Deep Learning) orientados al análisis de código.
El framework procesará repositorios que cumplan estrictamente con los siguientes criterios:
- Lenguajes: Java, Python y JavaScript.
- Frameworks/Herramientas de Construcción: Proyectos en Micronaut o Spring Boot que utilicen Maven o Gradle.
- Historial mínimo: Repositorios con un historial de al menos 10 commits.
- Calidad: Deben incluir un set de pruebas (tests) ejecutable.
- Interoperabilidad: Diseñado como un componente externo (plugin o listener) ejecutable en entornos Java utilizando tecnologías como GraalVM Polyglot.
- Nombre: Eber Córdoba Gutiérrez
- Número de Control: 22010097
- Programa Educativo: Ingeniería en Sistemas Computacionales
- Institución: Tecnológico Nacional de México – Instituto Tecnológico de Orizaba
- Adscripción: División de Estudios de Posgrado e Investigación (DEPI) - Laboratorio de Tecnologías Web
- Asesor Interno: Dr. Ulises Juárez Martínez