ELTE-DSED
diff --git a/‎.dockerignore‎
Lines changed: 17 additions & 0 deletions b/‎.dockerignore‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎.gitattributes‎
Lines changed: 1 addition & 0 deletions b/‎.gitattributes‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.github/workflows/tests.yml‎
Lines changed: 27 additions & 0 deletions b/‎.github/workflows/tests.yml‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 112 additions & 0 deletions b/‎.gitignore‎
Lines changed: 112 additions & 0 deletions
diff --git a/‎.python-version‎
Lines changed: 1 addition & 0 deletions b/‎.python-version‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎Dockerfile‎
Lines changed: 25 additions & 0 deletions b/‎Dockerfile‎
Lines changed: 25 additions & 0 deletions
diff --git a/‎Makefile‎
Lines changed: 87 additions & 0 deletions b/‎Makefile‎
Lines changed: 87 additions & 0 deletions
@@ -0,0 +1,17 @@
+.venv/
+artifacts/
+.git/
+.github/
+__pycache__/
+*.py[cod]
+*.pt
+*.pth
+*.ckpt
+*.joblib
+*.parquet
+*.csv.gz
+*.h5
+.pytest_cache/
+configs/paths.local.yaml
+thesis_*/
+docs/
@@ -0,0 +1 @@
+*.sh text eol=lf
@@ -0,0 +1,27 @@
+name: tests
+
+on:
+  push:
+    branches: ["master", "main"]
+  pull_request:
+
+jobs:
+  test:
+    runs-on: ubuntu-latest
+
+    steps:
+      - uses: actions/checkout@v4
+
+      - uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+
+      - name: install dependencies
+        run: |
+          pip install --upgrade pip
+          pip install -r requirements.txt
+          pip install pytest==9.0.2
+          pip install -e . --no-deps
+
+      - name: run tests
+        run: python -m pytest tests/ -v --tb=short
@@ -0,0 +1,112 @@
+# Python
+__pycache__/
+*.py[cod]
+*.pyo
+*.pyd
+.venv/
+venv/
+env/
+
+# Jupyter
+.ipynb_checkpoints/
+
+# OS / Editor
+.DS_Store
+Thumbs.db
+.vscode/
+.idea/
+
+# Logs
+*.log
+
+# Environment / secrets
+.env
+configs/paths.local.yaml
+
+# Model outputs
+checkpoints/
+/runs/
+wandb/
+
+# Large artifacts
+artifacts/tmp/
+artifacts/cache/
+artifacts/archive/
+
+# Data directories
+data/raw/
+data/interim/
+data/processed/
+
+# Raw data formats
+*.csv.gz
+*.h5
+*.pt
+*.pth
+*.ckpt
+
+# === MIMIC DUA — NEVER COMMIT ===
+# Parquet cohort tables contain MIMIC patient identifiers
+artifacts/manifests/*.parquet
+artifacts/manifests/*multi_match.csv
+
+# Prediction files with extra identifiers or local filesystem paths
+artifacts/models/**/test_predictions_with_ids.csv
+artifacts/evaluation/prediction_behavior_*/predictions_copy.csv
+artifacts/evaluation/prediction_behavior_*/top_false_negatives.csv
+artifacts/evaluation/prediction_behavior_*/top_false_positives.csv
+artifacts/evaluation/nonED_generalization_image_predictions.csv
+artifacts/evaluation/shap/shap_values.csv
+artifacts/logs/qc/mimic_cxr_missing_paths.csv
+fp_top50.csv
+
+# === LARGE MODEL BINARIES ===
+artifacts/models/**/*.joblib
+artifacts/models/**/*.sav
+artifacts/models/**/checkpoints/
+
+# === LATEX BUILD ARTIFACTS ===
+*.aux
+*.bbl
+*.blg
+*.fls
+*.fdb_latexmk
+*.synctex.gz
+*.idx
+*.ilg
+*.ind
+*.lof
+*.lot
+*.nlo
+*.tdo
+*.run.xml
+*-blx.bib
+*.toc
+
+# === NOT FOR PUBLIC REPO ===
+thesis_documentation/
+thesis_new_docs/
+thesis_v2/
+thesis_summary.tex
+thesis_summary.pdf
+thesis_summary.out
+docs/
+sample_documentation/
+tools/
+tetttt.py
+professor_feedback.docx
+thesis_v2_overleaf.zip
+Yazan_thesis_v2_overleaf.zip
+Yazan_thesis_v2_overleaf/
+project_digest.py
+
+# === LOCAL-ONLY DEV ARTIFACTS ===
+AUDIT_NOTES.md
+audit_prompt.txt
+tmp_preview/
+artifacts/models/**/val_predictions_with_paths*.csv
+
+# === TOOL & EDITOR CONFIG ===
+.claude/
+.pytest_cache/
+_strict_cleanup.py
@@ -0,0 +1 @@
+3.11
@@ -0,0 +1,25 @@
+FROM pytorch/pytorch:2.6.0-cuda12.4-cudnn9-runtime
+
+RUN apt-get update && apt-get install -y \
+    libgomp1 \
+    libglib2.0-0 \
+    libgl1-mesa-glx \
+    && rm -rf /var/lib/apt/lists/*
+
+WORKDIR /workspace
+
+COPY requirements_dev.txt .
+RUN pip install --no-cache-dir -r requirements_dev.txt
+
+COPY src/ src/
+COPY scripts/ scripts/
+COPY configs/ configs/
+COPY pyproject.toml .
+
+RUN pip install -e . --no-deps
+
+ENV PYTHONPATH=/workspace
+ENV PYTHONDONTWRITEBYTECODE=1
+ENV PYTHONUNBUFFERED=1
+
+CMD ["python", "-m", "src.training.train_multimodal_pneumonia", "--help"]
@@ -0,0 +1,87 @@
+# Makefile — Multimodal Pneumonia Detection Pipeline
+# Requires: .venv activated or use PYTHON variable below
+PYTHON ?= python
+SEED   := 42
+export MPLCONFIGDIR := artifacts/.mpl_cache
+
+# ─── Data pipeline ───────────────────────────────────────────────────────────
+preprocess:
+	bash scripts/run_data_pipeline.sh
+
+preprocess_labs:
+	bash scripts/run_lab_pipeline.sh
+
+# ─── Pretraining ─────────────────────────────────────────────────────────────
+pretrain:
+	$(PYTHON) -m src.training.train_image_multilabel_pretrain
+
+# ─── Image fine-tuning ───────────────────────────────────────────────────────
+finetune_image:
+	$(PYTHON) -m src.training.train_image_pneumonia_finetune --lr-head 5e-5 --lr-backbone 1e-5
+
+# ─── Multimodal training (canonical run) ─────────────────────────────────────
+finetune_multimodal:
+	$(PYTHON) -m src.training.train_multimodal_pneumonia --lr-head 5e-5 --lr-backbone 1e-5
+
+# ─── Clinical baselines ──────────────────────────────────────────────────────
+train_clinical_lr:
+	$(PYTHON) -m src.training.train_clinical_baseline
+
+train_clinical_xgb:
+	$(PYTHON) -m src.training.train_clinical_xgb
+
+train_clinical: train_clinical_lr train_clinical_xgb
+
+# ─── Evaluation ──────────────────────────────────────────────────────────────
+bootstrap_delta:
+	$(PYTHON) -m src.evaluation.bootstrap_eval \
+	  --model-a artifacts/models/multimodal_pneumonia_densenet121_triage_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --model-b artifacts/models/image_pneumonia_finetune_densenet121_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --output-json artifacts/evaluation/bootstrap_multimodal_vs_image_stronger_lr_v3.json \
+	  --n-bootstrap 2000 --seed $(SEED)
+
+calibration:
+	$(PYTHON) -m src.evaluation.calibration_analysis \
+	  --output-dir artifacts/evaluation/calibration_stronger_lr_v3 \
+	  --n-bins 10 --bootstrap --n-bootstrap 2000 \
+	  --model "Image" artifacts/models/image_pneumonia_finetune_densenet121_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --model "Multimodal" artifacts/models/multimodal_pneumonia_densenet121_triage_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --model "Clinical Logistic" artifacts/models/clinical_baseline_u_ignore_temporal_strong_v2/test_predictions.csv \
+	  --model "Clinical XGBoost" artifacts/models/clinical_xgb_u_ignore_temporal_strong_v2/test_predictions.csv
+	$(PYTHON) -m src.evaluation.calibration_analysis \
+	  --output-dir artifacts/evaluation/calibration_final \
+	  --n-bins 10 --bootstrap --n-bootstrap 2000 \
+	  --model "Image" artifacts/models/image_pneumonia_finetune_densenet121_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --model "Multimodal" artifacts/models/multimodal_pneumonia_densenet121_triage_u_ignore_temporal_stronger_lr_v3/test_predictions.csv
+
+dca:
+	$(PYTHON) -m src.evaluation.decision_curve_analysis \
+	  --output-dir artifacts/evaluation/dca \
+	  --model "Image" artifacts/models/image_pneumonia_finetune_densenet121_u_ignore_temporal_stronger_lr_v3/test_predictions.csv \
+	  --model "Multimodal" artifacts/models/multimodal_pneumonia_densenet121_triage_u_ignore_temporal_stronger_lr_v3/test_predictions.csv
+
+feature_ablation:
+	$(PYTHON) scripts/collect_feature_ablation_results.py
+
+evaluate: bootstrap_delta calibration dca feature_ablation
+
+# ─── SHAP ────────────────────────────────────────────────────────────────────
+shap:
+	$(PYTHON) scripts/generate_shap_clinical.py \
+	  --model-dir artifacts/models/clinical_xgb_u_ignore_temporal_strong_v2 \
+	  --feature-groups all
+
+# ─── Publication report ───────────────────────────────────────────────────────
+report:
+	$(PYTHON) scripts/generate_publication_report.py
+
+# ─── Testing ─────────────────────────────────────────────────────────────────
+test:
+	$(PYTHON) -m pytest tests/ -v --tb=short
+
+# ─── Full pipeline ────────────────────────────────────────────────────────────
+all: pretrain finetune_image finetune_multimodal train_clinical evaluate shap report
+
+.PHONY: preprocess preprocess_labs pretrain finetune_image finetune_multimodal \
+        train_clinical_lr train_clinical_xgb train_clinical bootstrap_delta \
+        calibration dca feature_ablation evaluate shap report all test