Skip to content

Entendimiento y Preparación de Datos

Ilustre Daniel edited this page Feb 23, 2025 · 2 revisions

Descripción del Dataset

El dataset utilizado contiene 57,063 registros de noticias en español, etiquetadas como verdaderas (1) o falsas (0). Cada registro incluye un identificador único (ID), el título de la noticia, una breve descripción y la fecha de publicación. La estructura es la siguiente:

  • ID: Identificador único de la noticia.
  • Label: Etiqueta de la noticia (1: verdadera, 0: falsa).
  • Título: Encabezado de la noticia.
  • Descripción: Breve resumen de la noticia.
  • Fecha: Fecha de publicación.

Perfilamiento de Datos

  • Dimensiones: El dataset cuenta con 57,063 filas y 5 columnas.
  • Valores Nulos: No se encontraron valores nulos en ninguna columna.
  • Duplicados: Se identificaron y eliminaron 445 registros duplicados.
  • Tipos de Datos: Todas las columnas fueron convertidas a tipo string para evitar errores durante el procesamiento de texto.
  • Distribución de Clases: La variable objetivo (Label) presenta una distribución equilibrada entre las clases 0 y 1, lo cual es favorable para el entrenamiento del modelo.

Transformaciones Realizadas

  • Limpieza de Texto: Se eliminaron caracteres especiales, signos de puntuación y espacios adicionales para normalizar los textos.
  • Conversión a Minúsculas: Todo el texto se convirtió a minúsculas para garantizar la uniformidad.
  • Eliminación de Stopwords: Se eliminaron palabras vacías utilizando listas en español de la biblioteca NLTK.
  • Lematización: Se aplicó lematización para reducir las palabras a su forma base, facilitando la identificación de patrones.
  • Vectorización del Texto: Se utilizaron los métodos Count Vectorizer y TF-IDF para transformar los textos en representaciones numéricas.
  • Características Adicionales: Se calcularon la longitud del título y la descripción, el número de palabras y caracteres, y la presencia de términos sensacionalistas.

Clone this wiki locally