Scrapping de noticias periodísticas.

Este proyecto llevado a cabo para la materia Web Mining de la Maestría en Ciencia de Datos de la Universidad Austral.

Descripción de los Scripts

scrap_pagina12_multiseccion.py: Scrapping sobre sitio web para extracción de noticias de 4 temáticas puntuales.
de_html_a_tabla.py: Convierte páginas HTML de noticias en vectores de texto y guarda las fechas y categorías asociadas.
entrenar_y_validar_v2.py``entrenar_y_validar_v2_con_fecha.py: Entrena un modelo Random Forest con y sin validación temporal, optimiza hiperparámetros y guarda los resultados (matriz de confusión y reporte de clasificación).

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
text_mining_python		text_mining_python
.gitignore		.gitignore
README.md		README.md
confusion_20241024_190541.png		confusion_20241024_190541.png
confusion_temporal_20241024_200935.png		confusion_temporal_20241024_200935.png
features.joblib		features.joblib
fechas.joblib		fechas.joblib
log_entrenar_y_evaluar.txt		log_entrenar_y_evaluar.txt
output_20241024_190541.txt		output_20241024_190541.txt
output_temporal_20241024_200935.txt		output_temporal_20241024_200935.txt
requirements.txt		requirements.txt
scrap_pagina12_multiseccion.py		scrap_pagina12_multiseccion.py
targets.joblib		targets.joblib
targets_con_fecha.joblib		targets_con_fecha.joblib
vectores.joblib		vectores.joblib
vectores_con_fecha.joblib		vectores_con_fecha.joblib