מערכת אינטראקטיבית להצגת טקסטים מדרשיים לצד קטעי גניזת קהיר שזוהו כמקבילות אוטומטית (באמצעות ACTX — Automatic Comparison of TeXts).
| קובץ | תפקיד |
|---|---|
index.html |
מערכת ההצגה — דף יחיד, נפתח ישירות בדפדפן |
build_index.py |
בניית קבצי אינדקס קלים מקבצי *-Gnizah.json המקוריים |
reorder_index.py |
סידור מחדש של קבצי אינדקס לפי סדר פרשיות התורה |
reorder_sefaria.py |
סידור לפי סדר ספריא |
restore_order.py |
שחזור סדר המפתחות המקורי מקבצי ה-Gnizah |
המשתמש צריך להכין תיקיית נתונים עם הקבצים הבאים:
מיוצרים על-ידי build_index.py מתוך קבצי *-Gnizah.json:
<ספר>-index.json— אינדקס קל (~200KB–4MB)<ספר>-units/— תיקיית JSON לכל יחידת טקסט
ספרים זמינים:
- דברים רבה:
Devarim_Rabbah-index.json+Devarim_Rabbah-units/ - מדרש תנחומא:
Midrash_Tanchuma-index.json+Midrash_Tanchuma-units/ - תנחומא (בובר):
Midrash_Tanchuma_Buber-index.json+Midrash_Tanchuma_Buber-units/
All_Gnizah_enriched.json— פרטי מוסד, שפה, ביבליוגרפיה וכו' עבור קטעי הגניזה
הכנס את קבצי ה-*-Gnizah.json לתיקיית הנתונים והרץ:
cd <תיקיית-הנתונים>
python build_index.pyייווצרו קבצי *-index.json ותיקיות *-units/.
פתח את index.html בדפדפן (Chrome / Edge מומלצים).
- לחץ "פתח תיקיה" ובחר את תיקיית הנתונים
- המערכת תזהה אוטומטית את קבצי האינדקס, תיקיות היחידות, וקבצי המטה-דאטה
- ניתן גם ללחוץ "מטה-דאטה גניזה" לטעינת
All_Gnizah_enriched.jsonבנפרד
- השוואת קטעים פרטנית — טקסט מקור מול מועמדים מהגניזה עם הדגשת הקבלות
- מקבצי גניזה — צפייה בדפי גניזה המכילים מקבילות מרובות
- מבט-על (Distant Reading) — ויזואליזציה של פיזור ההקבלות לאורך הספר
- חיפוש וניתוח — חיפוש חופשי, סינון לפי שפה/מוסד/ציון
- מדדי דמיון — יישור (alignment), מנורמל, גלם
- תמיכה בספרים מרובים — טעינת מספר ספרים במקביל
מסדר את קבצי האינדקס של תנחומא ותנחומא בובר לפי סדר פרשיות התורה:
python reorder_index.py <תיקיית-נתונים>סידור מדויק יותר לפי סדר ספריא, כולל קטעי נספח (Appendix):
python reorder_sefaria.py <תיקיית-נתונים>שחזור סדר המפתחות מקבצי ה-Gnizah המקוריים:
python restore_order.py <תיקיית-נתונים> <תיקיית-מקור>