Skip to content

famarti/web_mining_scrapping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapping de noticias periodísticas.

Este proyecto llevado a cabo para la materia Web Mining de la Maestría en Ciencia de Datos de la Universidad Austral.

Descripción de los Scripts

  • scrap_pagina12_multiseccion.py: Scrapping sobre sitio web para extracción de noticias de 4 temáticas puntuales.
  • de_html_a_tabla.py: Convierte páginas HTML de noticias en vectores de texto y guarda las fechas y categorías asociadas.
  • entrenar_y_validar_v2.py``entrenar_y_validar_v2_con_fecha.py: Entrena un modelo Random Forest con y sin validación temporal, optimiza hiperparámetros y guarda los resultados (matriz de confusión y reporte de clasificación).

Librerías Usadas

  • Scrapy
  • pandas
  • scikit-learn
  • matplotlib
  • seaborn
  • joblib

Autores

About

Proyecto de Web Mining sobre noticias periodísticas + Modelo de clasificación de temática

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages