Pipeline reproducible para la construcción de un corpus paralelo Yine–Español a partir de múltiples fuentes:
- 📘 Diccionario Virtual Yine (Ministerio de Cultura del Perú)
- 📖 Biblia Yine (ebible.org)
- 📗 Biblia Español (ebible.org)
- Scraping estructurado de fuentes web.
- Normalización y limpieza robusta de texto.
- Alineamiento versículo por versículo.
- Fusión de múltiples fuentes.
- Generación de dataset final listo para NMT (Neural Machine Translation).
YINE-SPANISH-DATASET-PSA/
│
├── config/
│ ├── constants.py
│ └── settings.py
│
├── lib/
│ └── books_dict.py
│
├── pipelines/
│ ├── scrape_dictionary.py
│ ├── scrape_bible.py
│ └── build_full_corpus.py
│
├── scraper_dictionary/
│ ├── extractor.py
│ ├── fetcher.py
│ ├── normalizer.py
│ ├── paginator.py
│ └── parser.py
│
├── scraper_bible/
│ ├── scraper.py
│ ├── processor.py
│ ├── aligner.py
│ └── dataset_builder.py
│
├── utils/
│ ├── io.py
│ └── logger.py
│
├── data/
│ ├── raw/
│ └── processed/
│
└── requirements.txt
Construir un corpus paralelo Yine–Español combinando:
- Ejemplos del diccionario Yine
- Versículos alineados de la Biblia
- Dataset consolidado final
El resultado es un archivo listo para:
- Fine-tuning de NMT (Neural Machine Translation)
- Evaluación lingüística
- Estudios morfológicos
- Publicación académica
- Python 3.9+
- Instalar dependencias:
pip install -r requirements.txtDependencias principales:
requests, beautifulsoup4, lxml, pandas, ftfy, tqdm.
El pipeline completo consta de 3 pasos:
Extrae ejemplos paralelos Yine–Español desde: http://diccionariovirtualyine.culturacusco.gob.pe
python -m pipelines.scrape_dictionarySalida: data/processed/parallel_sentences.csv
Incluye:
- Normalización UTF robusta.
- Eliminar corchetes [ ].
- Preservación correcta de puntuación.
- Exportación compatible con Excel.
Descarga versículos Yine y Español desde ebible.org y los alinea versículo por versículo.
python -m pipelines.scrape_bibleSalida: data/processed/merged/yine_spanish.csv
Características:
- Alineamiento basado en .
- Soporte para div.p, div.q, div.q1, div.q2.
- Exclusión de subtítulos (div.s).
- Reparación automática de encoding.
- Guardado de HTML crudo para trazabilidad.
Fusiona el Diccionario y la Biblia generando un único dataset consolidado.
python -m pipelines.build_full_corpusSalida final: data/processed/final/yine_spanish_full_corpus.csv
Incluye columna source para trazabilidad:
- dictionary
- bible
Este proyecto incluye:
- Corrección robusta de encoding UTF-8.
- Reparación de mojibake.
- Manejo seguro de HTML malformado.
- Exportación CSV compatible con Excel.
- Guardado de HTML crudo para auditoría.
- Alineamiento conservador (no heurístico agresivo).
En investigaciones de Machine Translation:
- Es válido combinar múltiples fuentes.
- Debe documentarse claramente el origen.
- Se recomienda mantener la columna
source. - Puede reportarse por separado en análisis experimental.
Este corpus puede emplearse para:
- Entrenamiento NMT low-resource.
- Evaluación BLEU / chrF++.
- Análisis morfológico.
- Estudios tipológicos.
- Evaluación humana posterior.
Antes de uso público:
- Verificar términos de uso del diccionario virtual.
- Verificar licencia de
ebible.org. - Citar adecuadamente las fuentes.
Proyecto desarrollado como parte de investigación en:
Low-Resource Neural Machine Translation / Lenguas indígenas del Perú