Yine–Spanish Parallel Corpus Builder 🇵🇪📖

Pipeline reproducible para la construcción de un corpus paralelo Yine–Español a partir de múltiples fuentes:

📘 Diccionario Virtual Yine (Ministerio de Cultura del Perú)
📖 Biblia Yine (ebible.org)
📗 Biblia Español (ebible.org)

El proyecto permite

Scraping estructurado de fuentes web.
Normalización y limpieza robusta de texto.
Alineamiento versículo por versículo.
Fusión de múltiples fuentes.
Generación de dataset final listo para NMT (Neural Machine Translation).

📂 Estructura del Proyecto

YINE-SPANISH-DATASET-PSA/
│
├── config/
│   ├── constants.py
│   └── settings.py
│
├── lib/
│   └── books_dict.py
│
├── pipelines/
│   ├── scrape_dictionary.py
│   ├── scrape_bible.py
│   └── build_full_corpus.py
│
├── scraper_dictionary/
│   ├── extractor.py
│   ├── fetcher.py
│   ├── normalizer.py
│   ├── paginator.py
│   └── parser.py
│
├── scraper_bible/
│   ├── scraper.py
│   ├── processor.py
│   ├── aligner.py
│   └── dataset_builder.py
│
├── utils/
│   ├── io.py
│   └── logger.py
│
├── data/
│   ├── raw/
│   └── processed/
│
└── requirements.txt

🎯 Objetivo

Construir un corpus paralelo Yine–Español combinando:

Ejemplos del diccionario Yine
Versículos alineados de la Biblia
Dataset consolidado final

El resultado es un archivo listo para:

Fine-tuning de NMT (Neural Machine Translation)
Evaluación lingüística
Estudios morfológicos
Publicación académica

⚙️ Requisitos

Python 3.9+
Instalar dependencias:

pip install -r requirements.txt

Dependencias principales: requests, beautifulsoup4, lxml, pandas, ftfy, tqdm.

🚀 Orden de Ejecución

El pipeline completo consta de 3 pasos:

1️⃣ Scrape del Diccionario

Extrae ejemplos paralelos Yine–Español desde: http://diccionariovirtualyine.culturacusco.gob.pe

python -m pipelines.scrape_dictionary

Salida: data/processed/parallel_sentences.csv

Incluye:

Normalización UTF robusta.
Eliminar corchetes [ ].
Preservación correcta de puntuación.
Exportación compatible con Excel.

2️⃣ Scrape y Alineamiento de la Biblia

Descarga versículos Yine y Español desde ebible.org y los alinea versículo por versículo.

python -m pipelines.scrape_bible

Salida: data/processed/merged/yine_spanish.csv

Características:

Alineamiento basado en .
Soporte para div.p, div.q, div.q1, div.q2.
Exclusión de subtítulos (div.s).
Reparación automática de encoding.
Guardado de HTML crudo para trazabilidad.

3️⃣ Merge Final del Corpus

Fusiona el Diccionario y la Biblia generando un único dataset consolidado.

python -m pipelines.build_full_corpus

Salida final: data/processed/final/yine_spanish_full_corpus.csv

Incluye columna source para trazabilidad:

dictionary
bible

🧪 Validación y Robustez

Este proyecto incluye:

Corrección robusta de encoding UTF-8.
Reparación de mojibake.
Manejo seguro de HTML malformado.
Exportación CSV compatible con Excel.
Guardado de HTML crudo para auditoría.
Alineamiento conservador (no heurístico agresivo).

📚 Estándares Académicos

En investigaciones de Machine Translation:

Es válido combinar múltiples fuentes.
Debe documentarse claramente el origen.
Se recomienda mantener la columna source.
Puede reportarse por separado en análisis experimental.

🔬 Uso en Investigación

Este corpus puede emplearse para:

Entrenamiento NMT low-resource.
Evaluación BLEU / chrF++.
Análisis morfológico.
Estudios tipológicos.
Evaluación humana posterior.

📝 Licencia y Consideraciones

Antes de uso público:

Verificar términos de uso del diccionario virtual.
Verificar licencia de ebible.org.
Citar adecuadamente las fuentes.

👨‍💻 Autor

Proyecto desarrollado como parte de investigación en:

Low-Resource Neural Machine Translation / Lenguas indígenas del Perú

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
config		config
lib		lib
pipelines		pipelines
plots		plots
scraper_bible		scraper_bible
scraper_diccionary		scraper_diccionary
utils		utils
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
stats_script.py		stats_script.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Yine–Spanish Parallel Corpus Builder 🇵🇪📖

El proyecto permite

📂 Estructura del Proyecto

🎯 Objetivo

⚙️ Requisitos

🚀 Orden de Ejecución

1️⃣ Scrape del Diccionario

2️⃣ Scrape y Alineamiento de la Biblia

3️⃣ Merge Final del Corpus

🧪 Validación y Robustez

📚 Estándares Académicos

🔬 Uso en Investigación

📝 Licencia y Consideraciones

👨‍💻 Autor

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Yine–Spanish Parallel Corpus Builder 🇵🇪📖

El proyecto permite

📂 Estructura del Proyecto

🎯 Objetivo

⚙️ Requisitos

🚀 Orden de Ejecución

1️⃣ Scrape del Diccionario

2️⃣ Scrape y Alineamiento de la Biblia

3️⃣ Merge Final del Corpus

🧪 Validación y Robustez

📚 Estándares Académicos

🔬 Uso en Investigación

📝 Licencia y Consideraciones

👨‍💻 Autor

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages