Multiomics-Analytics-Group
diff --git a/‎docs/source/tutorials/case_studies/atlas_antibodies.ipynb‎
Lines changed: 172 additions & 0 deletions b/‎docs/source/tutorials/case_studies/atlas_antibodies.ipynb‎
Lines changed: 172 additions & 0 deletions
diff --git a/‎environment.osx-arm64.yaml‎
Lines changed: 1 addition & 0 deletions b/‎environment.osx-arm64.yaml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎grid_master.log‎
Lines changed: 71 additions & 0 deletions b/‎grid_master.log‎
Lines changed: 71 additions & 0 deletions
diff --git a/‎json/gridsearch_params.json‎
Lines changed: 21 additions & 11 deletions b/‎json/gridsearch_params.json‎
Lines changed: 21 additions & 11 deletions
@@ -325,6 +325,14 @@
     "sequences = data_filtered['cleaned_preds'].tolist()"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "26a812f6",
+   "metadata": {},
+   "source": [
+    "### DBG weighted"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -382,12 +390,176 @@
     "scaffolds"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "5be34a36",
+   "metadata": {},
+   "source": [
+    "### DBG weighted refined"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
    "id": "40d4a8be",
    "metadata": {},
    "outputs": [],
+   "source": [
+    "assembler = Assembler(\n",
+    "    mode=\"dbg_weighted\",\n",
+    "    kmer_size=6,\n",
+    "    min_overlap=2,\n",
+    "    size_threshold=10,\n",
+    "    min_weight=2,\n",
+    "    refine_rounds=10\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f0e04211",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "scaffolds = assembler.run(\n",
+    "    sequences=sequences, \n",
+    "    df_full=data_filtered\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d447b512",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(len(scaffolds))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "238dec65",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# show me all the scaffolds\n",
+    "for scaffold in scaffolds:\n",
+    "    print(scaffold)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ec9903d3",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# plot the distribution of scaffold lengths\n",
+    "scaffold_lengths = [len(scaffold) for scaffold in scaffolds]\n",
+    "plt.figure(figsize=(10, 6))\n",
+    "sns.histplot(scaffold_lengths, bins=20, kde=False)\n",
+    "plt.title(\"Distribution of scaffold lengths\")\n",
+    "plt.xlabel(\"Scaffold length\")\n",
+    "plt.ylabel(\"Frequency\")\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "51bc2815",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  },
+  {
+   "cell_type": "markdown",
+   "id": "39bf42e1",
+   "metadata": {},
+   "source": [
+    "## Calculate coverage"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5a32472c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from Bio import Align\n",
+    "import numpy as np\n",
+    "\n",
+    "def calculate_fuzzy_coverage(reference_seq, peptides, min_identity=0.9):\n",
+    "    # 1. Clean reference\n",
+    "    clean_ref = reference_seq.replace(\"-\", \"\")\n",
+    "    ref_len = len(clean_ref)\n",
+    "    \n",
+    "    if ref_len == 0:\n",
+    "        return 0.0, 0, 0\n",
+    "\n",
+    "    # 2. Mask setup\n",
+    "    coverage_mask = np.zeros(ref_len, dtype=bool)\n",
+    "    \n",
+    "    # 3. Aligner Setup\n",
+    "    aligner = Align.PairwiseAligner()\n",
+    "    aligner.mode = 'local'\n",
+    "    aligner.open_gap_score = -10\n",
+    "    aligner.extend_gap_score = -1\n",
+    "    \n",
+    "    for pep in peptides:\n",
+    "        if len(pep) > ref_len or len(pep) == 0:\n",
+    "            continue\n",
+    "            \n",
+    "        alignments = aligner.align(clean_ref, pep)\n",
+    "        \n",
+    "        if not alignments:\n",
+    "            continue\n",
+    "            \n",
+    "        best_aln = alignments[0]\n",
+    "        \n",
+    "        # FIX: Calculate identity using matches / peptide length\n",
+    "        # 'counts().identities' returns the number of matching residues\n",
+    "        matches = best_aln.counts().identities\n",
+    "        identity = matches / len(pep)\n",
+    "        \n",
+    "        if identity >= min_identity:\n",
+    "            # best_aln.aligned[0] contains the (start, end) tuples for the reference (first seq)\n",
+    "            for start, end in best_aln.aligned[0]:\n",
+    "                coverage_mask[start:end] = True\n",
+    "\n",
+    "    # 4. Stats\n",
+    "    covered_count = np.sum(coverage_mask)\n",
+    "    coverage_pct = (covered_count / ref_len) * 100\n",
+    "    \n",
+    "    return coverage_pct, covered_count, ref_len\n",
+    "\n",
+    "# --- Example Usage with your data ---\n",
+    "\n",
+    "reference_data = {\n",
+    "    \"heavy\": \"EVQLVESGGGLVKPGGSLKLSCAAS--------MSWVRQTPEKRLEWVAT--------SYPDSMKGRFTVSRDSAKNTLYLQMSSLRSEDTAMYY------------GQGTTLTVSSAKTTPPSV\",\n",
+    "    \"light\": \"DVVLTQTPLSLPVNLGDQASLSCKST-----------LDWYVQKPGQSPQPLLY---NRFSGVPDRFSGSGSGTDFTLKLTRVEAEDLGLYY-----------GSGTNLELRRADAAPTVS\"\n",
+    "}\n",
+    "\n",
+    "# Example peptides (mix of perfect and slightly mutated for testing)\n",
+    "# In real case, this list comes from your filtered InstaNovo output\n",
+    "\n",
+    "\n",
+    "print(f\"{'Chain':<10} | {'Cov %':<10} | {'Residues':<10}\")\n",
+    "print(\"-\" * 35)\n",
+    "\n",
+    "for chain_name, ref_seq in reference_data.items():\n",
+    "    cov_pct, cov_res, total_res = calculate_fuzzy_coverage(ref_seq, scaffold, min_identity=0.85)\n",
+    "    print(f\"{chain_name:<10} | {cov_pct:6.2f}%    | {cov_res}/{total_res}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c5bb4bc7",
+   "metadata": {},
    "source": []
   }
  ],
 
@@ -9,6 +9,7 @@ dependencies:
   - python=3.11
   - biopython=1.85
   - pandas=2.3.1
+  - scikit-learn
   - upsetplot
   - tqdm=4.67.1
   - seaborn=0.13.2
 
@@ -0,0 +1,71 @@
+========================================
+ PROCESSING MODE: greedy 
+========================================
+>>> [greedy] Launching: ma1 (Chain: 'light')
+>>> [greedy] Launching: ma1 (Chain: 'heavy')
+>>> [greedy] Launching: ma2 (Chain: 'light')
+>>> [greedy] Launching: ma2 (Chain: 'heavy')
+>>> [greedy] Launching: ma3 (Chain: 'light')
+>>> [greedy] Launching: ma3 (Chain: 'heavy')
+>>> [greedy] Launching: nb1 (Chain: '')
+>>> [greedy] Launching: nb2 (Chain: '')
+>>> [greedy] Launching: nb3 (Chain: '')
+>>> [greedy] Launching: nb4 (Chain: '')
+>>> [greedy] Launching: nb5 (Chain: '')
+>>> [greedy] Launching: nb6 (Chain: '')
+>>> [greedy] Launching: nb7 (Chain: '')
+>>> [greedy] Launching: nb8 (Chain: '')
+>>> [greedy] Launching: nb9 (Chain: '')
+>>> [greedy] Launching: nb10 (Chain: '')
+>>> [greedy] Launching: bsa (Chain: '')
+>>> [greedy] Launching: bind1 (Chain: '')
+>>> [greedy] Launching: bind2 (Chain: '')
+>>> [greedy] Launching: bind3 (Chain: '')
+========================================
+ PROCESSING MODE: dbg_weighted 
+========================================
+>>> [dbg_weighted] Launching: ma1 (Chain: 'light')
+>>> [dbg_weighted] Launching: ma1 (Chain: 'heavy')
+>>> [dbg_weighted] Launching: ma2 (Chain: 'light')
+>>> [dbg_weighted] Launching: ma2 (Chain: 'heavy')
+>>> [dbg_weighted] Launching: ma3 (Chain: 'light')
+>>> [dbg_weighted] Launching: ma3 (Chain: 'heavy')
+>>> [dbg_weighted] Launching: nb1 (Chain: '')
+>>> [dbg_weighted] Launching: nb2 (Chain: '')
+>>> [dbg_weighted] Launching: nb3 (Chain: '')
+>>> [dbg_weighted] Launching: nb4 (Chain: '')
+>>> [dbg_weighted] Launching: nb5 (Chain: '')
+>>> [dbg_weighted] Launching: nb6 (Chain: '')
+>>> [dbg_weighted] Launching: nb7 (Chain: '')
+>>> [dbg_weighted] Launching: nb8 (Chain: '')
+>>> [dbg_weighted] Launching: nb9 (Chain: '')
+>>> [dbg_weighted] Launching: nb10 (Chain: '')
+>>> [dbg_weighted] Launching: bsa (Chain: '')
+>>> [dbg_weighted] Launching: bind1 (Chain: '')
+>>> [dbg_weighted] Launching: bind2 (Chain: '')
+>>> [dbg_weighted] Launching: bind3 (Chain: '')
+========================================
+ PROCESSING MODE: multimodal_dbg 
+========================================
+>>> [multimodal_dbg] Launching: ma1 (Chain: 'light')
+>>> [multimodal_dbg] Launching: ma1 (Chain: 'heavy')
+>>> [multimodal_dbg] Launching: ma2 (Chain: 'light')
+>>> [multimodal_dbg] Launching: ma2 (Chain: 'heavy')
+>>> [multimodal_dbg] Launching: ma3 (Chain: 'light')
+>>> [multimodal_dbg] Launching: ma3 (Chain: 'heavy')
+>>> [multimodal_dbg] Launching: nb1 (Chain: '')
+>>> [multimodal_dbg] Launching: nb2 (Chain: '')
+>>> [multimodal_dbg] Launching: nb3 (Chain: '')
+>>> [multimodal_dbg] Launching: nb4 (Chain: '')
+>>> [multimodal_dbg] Launching: nb5 (Chain: '')
+>>> [multimodal_dbg] Launching: nb6 (Chain: '')
+>>> [multimodal_dbg] Launching: nb7 (Chain: '')
+>>> [multimodal_dbg] Launching: nb8 (Chain: '')
+>>> [multimodal_dbg] Launching: nb9 (Chain: '')
+>>> [multimodal_dbg] Launching: nb10 (Chain: '')
+>>> [multimodal_dbg] Launching: bsa (Chain: '')
+>>> [multimodal_dbg] Launching: bind1 (Chain: '')
+>>> [multimodal_dbg] Launching: bind2 (Chain: '')
+>>> [multimodal_dbg] Launching: bind3 (Chain: '')
+----------------------------------------
+All grid search jobs completed.s
@@ -1,18 +1,28 @@
 {
-   "dbg": {
-     "kmer_size": [6, 7],
-     "min_overlap": [3, 4],
-     "size_threshold": [0, 5, 10],
-     "max_mismatches": [8, 10, 12, 14],
-     "min_identity": [0.6, 0.7, 0.8, 0.9],
-     "conf": [0.86, 0.88, 0.90, 0.92]
+  "greedy": {
+    "fdr": [0.05, 0.10, 0.20],
+    "min_overlap": [3, 4],
+    "size_threshold": [0, 5, 10],
+    "refine_rounds": [0, 5]
   },
 
-  "greedy": {
+  "dbg_weighted": {
+    "fdr": [0.05, 0.10, 0.20],
+    "kmer_size": [5, 6, 7],
+    "min_weight": [2, 3],
     "min_overlap": [3, 4],
     "size_threshold": [0, 5, 10],
-    "max_mismatches": [8, 10, 12, 14],
-    "min_identity": [0.6, 0.7, 0.8, 0.9],
-    "conf": [0.86, 0.88, 0.90, 0.92]
+    "refine_rounds": [0, 5],
+    "alpha_len": [1.0],
+    "alpha_cov": [1.0],
+    "alpha_min": [0.1]
+  },
+
+  "multimodal_dbg": {
+    "fdr": [0.05, 0.10, 0.20],
+    "kmer_size": [5, 6, 7],
+    "min_weight": [2, 5, 10],
+    "size_threshold": [0, 5, 10],
+    "refine_rounds": [0]
   }
 }