-
Notifications
You must be signed in to change notification settings - Fork 0
Entendimiento y Preparación de Datos
Ilustre Daniel edited this page Feb 23, 2025
·
2 revisions
El dataset utilizado contiene 57,063 registros de noticias en español, etiquetadas como verdaderas (1) o falsas (0). Cada registro incluye un identificador único (ID), el título de la noticia, una breve descripción y la fecha de publicación. La estructura es la siguiente:
- ID: Identificador único de la noticia.
- Label: Etiqueta de la noticia (1: verdadera, 0: falsa).
- Título: Encabezado de la noticia.
- Descripción: Breve resumen de la noticia.
- Fecha: Fecha de publicación.
- Dimensiones: El dataset cuenta con 57,063 filas y 5 columnas.
- Valores Nulos: No se encontraron valores nulos en ninguna columna.
- Duplicados: Se identificaron y eliminaron 445 registros duplicados.
- Tipos de Datos: Todas las columnas fueron convertidas a tipo string para evitar errores durante el procesamiento de texto.
- Distribución de Clases: La variable objetivo (Label) presenta una distribución equilibrada entre las clases 0 y 1, lo cual es favorable para el entrenamiento del modelo.
- Limpieza de Texto: Se eliminaron caracteres especiales, signos de puntuación y espacios adicionales para normalizar los textos.
- Conversión a Minúsculas: Todo el texto se convirtió a minúsculas para garantizar la uniformidad.
- Eliminación de Stopwords: Se eliminaron palabras vacías utilizando listas en español de la biblioteca NLTK.
- Lematización: Se aplicó lematización para reducir las palabras a su forma base, facilitando la identificación de patrones.
- Vectorización del Texto: Se utilizaron los métodos Count Vectorizer y TF-IDF para transformar los textos en representaciones numéricas.
- Características Adicionales: Se calcularon la longitud del título y la descripción, el número de palabras y caracteres, y la presencia de términos sensacionalistas.