-
Notifications
You must be signed in to change notification settings - Fork 0
Home
En la era digital, la proliferación de noticias falsas representa un desafío significativo, ya que puede influir en la opinión pública, generar confusión y afectar la toma de decisiones. Este proyecto tiene como objetivo desarrollar un modelo de aprendizaje automático que permita detectar automáticamente si una noticia es verdadera o falsa mediante el análisis de sus características lingüísticas y semánticas.
El objetivo principal es construir un sistema basado en procesamiento de lenguaje natural (NLP) y aprendizaje supervisado para identificar patrones que diferencien las noticias reales de las falsas. La solución busca proporcionar una herramienta útil para medios de comunicación, verificadores de información y usuarios en general, contribuyendo así a mitigar la desinformación.
Se aplicó la metodología CRISP-ML(Q) para garantizar un proceso replicable y de calidad. El dataset utilizado fue proporcionado a través de la plataforma BloqueNeón e incluye más de 57,000 noticias en español, etiquetadas como verdaderas (1) o falsas (0). Cada registro contiene un identificador único, título, descripción y fecha de publicación. Durante la fase de preparación de datos, se realizó un perfilamiento inicial para identificar valores nulos, duplicados y tipos de datos, garantizando así la calidad del dataset.
- Documentación del proceso de aprendizaje automático: Se completó el Machine Learning Canvas según la metodología CRISP-ML(Q), detallando la tarea de aprendizaje, decisiones procesables, propuesta de valor y criterios de éxito.
- Entendimiento y preparación de los datos: Se analizaron las características del dataset, se eliminaron duplicados y se realizó la transformación de variables para facilitar el modelado.
- Construcción y evaluación de modelos: Se implementaron y compararon tres algoritmos de aprendizaje automático: Naive Bayes, Random Forest y SVM. Los modelos fueron evaluados utilizando métricas de precisión, recall y F1-score, seleccionando el modelo con mejor desempeño para las predicciones finales.
- Resultados y análisis: Se generaron predicciones para el archivo de prueba proporcionado y se identificaron las palabras clave más relevantes para la detección de noticias falsas.
El repositorio de GitHub del proyecto contiene el código fuente, los archivos de datos procesados y los entregables requeridos. La presente wiki está organizada en secciones correspondientes a cada una de las fases del proyecto, facilitando la navegación y consulta de la información.
- Líder del Grupo: Julian David Parra
- Líder de analítica: Estiven Suarez
- Líder de datos: Daniel Felipe Ortiz