Skip to content

Latest commit

 

History

History
83 lines (59 loc) · 3.76 KB

File metadata and controls

83 lines (59 loc) · 3.76 KB

ACTX-genizah — מערכת השוואת מדרשים מול גניזת קהיר

מערכת אינטראקטיבית להצגת טקסטים מדרשיים לצד קטעי גניזת קהיר שזוהו כמקבילות אוטומטית (באמצעות ACTX — Automatic Comparison of TeXts).

מה כלול ברפוזיטורי

קובץ תפקיד
index.html מערכת ההצגה — דף יחיד, נפתח ישירות בדפדפן
build_index.py בניית קבצי אינדקס קלים מקבצי *-Gnizah.json המקוריים
reorder_index.py סידור מחדש של קבצי אינדקס לפי סדר פרשיות התורה
reorder_sefaria.py סידור לפי סדר ספריא
restore_order.py שחזור סדר המפתחות המקורי מקבצי ה-Gnizah

קבצי נתונים נדרשים (לא כלולים ברפוזיטורי)

המשתמש צריך להכין תיקיית נתונים עם הקבצים הבאים:

קבצי אינדקס ויחידות (מחויב)

מיוצרים על-ידי build_index.py מתוך קבצי *-Gnizah.json:

  • <ספר>-index.json — אינדקס קל (~200KB–4MB)
  • <ספר>-units/ — תיקיית JSON לכל יחידת טקסט

ספרים זמינים:

  • דברים רבה: Devarim_Rabbah-index.json + Devarim_Rabbah-units/
  • מדרש תנחומא: Midrash_Tanchuma-index.json + Midrash_Tanchuma-units/
  • תנחומא (בובר): Midrash_Tanchuma_Buber-index.json + Midrash_Tanchuma_Buber-units/

מטה-דאטה של הגניזה (אופציונלי, מומלץ)

  • All_Gnizah_enriched.json — פרטי מוסד, שפה, ביבליוגרפיה וכו' עבור קטעי הגניזה

הפעלה

שלב 1 — בניית אינדקסים (פעם אחת)

הכנס את קבצי ה-*-Gnizah.json לתיקיית הנתונים והרץ:

cd <תיקיית-הנתונים>
python build_index.py

ייווצרו קבצי *-index.json ותיקיות *-units/.

שלב 2 — פתיחת המערכת

פתח את index.html בדפדפן (Chrome / Edge מומלצים).

שלב 3 — טעינת נתונים

  1. לחץ "פתח תיקיה" ובחר את תיקיית הנתונים
  2. המערכת תזהה אוטומטית את קבצי האינדקס, תיקיות היחידות, וקבצי המטה-דאטה
  3. ניתן גם ללחוץ "מטה-דאטה גניזה" לטעינת All_Gnizah_enriched.json בנפרד

תכונות

  • השוואת קטעים פרטנית — טקסט מקור מול מועמדים מהגניזה עם הדגשת הקבלות
  • מקבצי גניזה — צפייה בדפי גניזה המכילים מקבילות מרובות
  • מבט-על (Distant Reading) — ויזואליזציה של פיזור ההקבלות לאורך הספר
  • חיפוש וניתוח — חיפוש חופשי, סינון לפי שפה/מוסד/ציון
  • מדדי דמיון — יישור (alignment), מנורמל, גלם
  • תמיכה בספרים מרובים — טעינת מספר ספרים במקביל

כלי עזר

סידור אינדקסים (reorder_index.py)

מסדר את קבצי האינדקס של תנחומא ותנחומא בובר לפי סדר פרשיות התורה:

python reorder_index.py <תיקיית-נתונים>

סידור לפי ספריא (reorder_sefaria.py)

סידור מדויק יותר לפי סדר ספריא, כולל קטעי נספח (Appendix):

python reorder_sefaria.py <תיקיית-נתונים>

שחזור סדר מקורי (restore_order.py)

שחזור סדר המפתחות מקבצי ה-Gnizah המקוריים:

python restore_order.py <תיקיית-נתונים> <תיקיית-מקור>