Skip to content
Ilustre Daniel edited this page Feb 22, 2025 · 4 revisions

Proyecto de Analítica de Textos: Detección de Noticias Falsas

Descripción General

En la era digital, la proliferación de noticias falsas representa un desafío significativo, ya que puede influir en la opinión pública, generar confusión y afectar la toma de decisiones. Este proyecto tiene como objetivo desarrollar un modelo de aprendizaje automático que permita detectar automáticamente si una noticia es verdadera o falsa mediante el análisis de sus características lingüísticas y semánticas.

Objetivo del Proyecto

El objetivo principal es construir un sistema basado en procesamiento de lenguaje natural (NLP) y aprendizaje supervisado para identificar patrones que diferencien las noticias reales de las falsas. La solución busca proporcionar una herramienta útil para medios de comunicación, verificadores de información y usuarios en general, contribuyendo así a mitigar la desinformación.

Metodología y Dataset

Se aplicó la metodología CRISP-ML(Q) para garantizar un proceso replicable y de calidad. El dataset utilizado fue proporcionado a través de la plataforma BloqueNeón e incluye más de 57,000 noticias en español, etiquetadas como verdaderas (1) o falsas (0). Cada registro contiene un identificador único, título, descripción y fecha de publicación. Durante la fase de preparación de datos, se realizó un perfilamiento inicial para identificar valores nulos, duplicados y tipos de datos, garantizando así la calidad del dataset.

Actividades Realizadas en la Etapa 1

  • Documentación del proceso de aprendizaje automático: Se completó el Machine Learning Canvas según la metodología CRISP-ML(Q), detallando la tarea de aprendizaje, decisiones procesables, propuesta de valor y criterios de éxito.
  • Entendimiento y preparación de los datos: Se analizaron las características del dataset, se eliminaron duplicados y se realizó la transformación de variables para facilitar el modelado.
  • Construcción y evaluación de modelos: Se implementaron y compararon tres algoritmos de aprendizaje automático: Naive Bayes, Random Forest y SVM. Los modelos fueron evaluados utilizando métricas de precisión, recall y F1-score, seleccionando el modelo con mejor desempeño para las predicciones finales.
  • Resultados y análisis: Se generaron predicciones para el archivo de prueba proporcionado y se identificaron las palabras clave más relevantes para la detección de noticias falsas.

Organización del Repositorio

El repositorio de GitHub del proyecto contiene el código fuente, los archivos de datos procesados y los entregables requeridos. La presente wiki está organizada en secciones correspondientes a cada una de las fases del proyecto, facilitando la navegación y consulta de la información.

Integrantes del Equipo

Líder del Grupo: Julian David Parra Líder de analítica: Estiven Suarez Líder de datos: Daniel Felipe Ortiz

Clone this wiki locally