-
Notifications
You must be signed in to change notification settings - Fork 63
Open
Description
Buenas! Estoy utilizando BETO para clasificar textos en categorías.
Al ser BETO un modelo donde se necesita un contexto para mejorar la predicción... Qué limpieza es conveniente realizar al texto?
Para BERT (inglés) se suele utilizar lo siguiente:
- Remover e-mails.
- Remover hipervínculos.
- Remover dígitos.
- Remover caracteres especiales.
- Remover palabras con tildes.
- Remover stopwords.
- Lematizar texto.
Remover las tildes, las stopwords y lematizar no tendría sentido.
Remover caracteres especiales incluirian !"#$%&'()*+, -./:;<=>?@[\]^_{|}~. Tampoco sé que tanto influye sacar los signos de exclamación/interrogación, a lo sumo podría sacar todos los demás menos esos.
Los e-mails e hipervinculos me parecen razonables sacarlos, pero los dígitos?
Espero su respuesta, estoy abierto a debate. Gracias!!
arubiales, juanpablogd and marthahuva
Metadata
Metadata
Assignees
Labels
No labels