Address Copilot review comments

dpark01 · claude · dpark01 · commit 87b18791500b · 2026-03-21T08:35:47.000-04:00
- Make plot labels generic ("Old"/"New") instead of hardcoded branch names
- Fix SKILL.md example to match discover_pairs.py argparse interface
- Fix stale reference to non-existent run_regression.py
- Fix discover_pairs.py docstring (assembly_metadata, not assembly_stats)
- Fix compare_sample_pair.py docstring (assembly_metadata TSV)
- Sort attempt-N dirs numerically instead of lexicographically
- Add pipefail to run_vadr.sh, use find instead of glob for model dir
- Add docker.yml to container-vulns rule paths
- Guard generate_markdown_report against empty DataFrames

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/.agents/skills/regression-testing/SKILL.md b/.agents/skills/regression-testing/SKILL.md
@@ -31,11 +31,11 @@ Use `discover_pairs.py` to find all comparable old/new sample pairs by crawling
 GCS Cromwell output directories.
 
 ```bash
-python discover_pairs.py <workspace_name> \
+python discover_pairs.py \
   --bucket <workspace-bucket-id> \
   --old-sub <old-submission-id> \
   --new-sub <new-submission-id> \
-  -o pairs.json
+  --output pairs.json
 ```
 
 This produces a JSON mapping sample_name -> {old_tsv, new_tsv} for all samples
@@ -56,8 +56,9 @@ python compare_sample_pair.py \
   --output-json ./results/<sample>.json
 ```
 
-For batch processing, use `run_regression.py` (in the terra-regression/scripts/ directory)
-which orchestrates parallel execution across all pairs.
+For batch processing, iterate over all entries in `pairs.json` and invoke
+`compare_sample_pair.py` for each sample pair (e.g., via a small wrapper
+script using `concurrent.futures` or `xargs`/GNU `parallel`).
 
 ### Step 4: Generate Report
 
diff --git a/.agents/skills/regression-testing/compare_sample_pair.py b/.agents/skills/regression-testing/compare_sample_pair.py
@@ -1,7 +1,7 @@
 #!/usr/bin/env python3
 """Compare assembly outputs between old and new code for a single sample pair.
 
-Takes two GCS URIs pointing at assembly_stats_by_taxon_tsv files (old and new),
+Takes two GCS URIs pointing at assembly_metadata TSV files (old and new),
 downloads them, compares metrics, aligns FASTAs with mafft, and outputs a JSON result.
 """
 import argparse
diff --git a/.agents/skills/regression-testing/discover_pairs.py b/.agents/skills/regression-testing/discover_pairs.py
@@ -1,8 +1,9 @@
 #!/usr/bin/env python3
 """Discover comparable old/new sample pairs by crawling GCS Cromwell output directories.
 
-For each submission, finds assembly_stats_by_taxon_tsv files, extracts sample names
-from filenames, and outputs the intersection as a JSON mapping.
+For each submission, finds assembly_metadata TSV files named
+``assembly_metadata-<sample>.tsv``, extracts sample names from filenames,
+and outputs the intersection as a JSON mapping.
 
 Usage:
     python discover_pairs.py \
@@ -46,7 +47,11 @@ def find_tsv_in_call_dir(call_dir_uri):
     items = gcloud_ls(call_dir_uri)
 
     # Check for attempt-N subdirectories
-    attempt_dirs = sorted([i for i in items if '/attempt-' in i], reverse=True)
+    def attempt_sort_key(path):
+        match = re.search(r'/attempt-(\d+)', path)
+        return int(match.group(1)) if match else 0
+    attempt_dirs = sorted([i for i in items if '/attempt-' in i],
+                          key=attempt_sort_key, reverse=True)
     tsv_files = [i for i in items if i.endswith('.tsv')]
 
     # If there are attempt dirs, check the highest attempt first
diff --git a/.agents/skills/regression-testing/generate_report.py b/.agents/skills/regression-testing/generate_report.py
@@ -124,8 +124,8 @@ def generate_plots(df, plot_dir):
                alpha=0.5, s=20)
     lims = [0, 105]
     ax.plot(lims, lims, 'r--', alpha=0.5, label='y=x')
-    ax.set_xlabel('Old (main) % Reference Covered')
-    ax.set_ylabel('New (FreeBayes) % Reference Covered')
+    ax.set_xlabel('Old % Reference Covered')
+    ax.set_ylabel('New % Reference Covered')
     ax.set_title('Percent Reference Covered: Old vs New')
     ax.set_xlim(lims)
     ax.set_ylim(lims)
@@ -148,8 +148,8 @@ def generate_plots(df, plot_dir):
         ax.plot([min_v, max_v], [min_v, max_v], 'r--', alpha=0.5, label='y=x')
         ax.set_xscale('log')
         ax.set_yscale('log')
-        ax.set_xlabel('Old (main) Mean Coverage')
-        ax.set_ylabel('New (FreeBayes) Mean Coverage')
+        ax.set_xlabel('Old Mean Coverage')
+        ax.set_ylabel('New Mean Coverage')
         ax.set_title('Mean Coverage: Old vs New')
         ax.legend()
         fig.tight_layout()
@@ -169,8 +169,8 @@ def generate_plots(df, plot_dir):
         max_v = max(df_len['old_assembly_length_unambiguous'].max(),
                     df_len['new_assembly_length_unambiguous'].max()) * 1.05
         ax.plot([min_v, max_v], [min_v, max_v], 'r--', alpha=0.5, label='y=x')
-        ax.set_xlabel('Old (main) Unambiguous Length')
-        ax.set_ylabel('New (FreeBayes) Unambiguous Length')
+        ax.set_xlabel('Old Unambiguous Length')
+        ax.set_ylabel('New Unambiguous Length')
         ax.set_title('Assembly Length (Unambiguous): Old vs New')
         ax.legend()
         fig.tight_layout()
@@ -270,17 +270,24 @@ def generate_markdown_report(df, sample_df, workspace_name, report_dir, plot_dir
     pd, _ = get_deps()
 
     total_samples = len(sample_df)
-    samples_with_assemblies = len(sample_df[sample_df['old_assembly_count'] > 0])
-    samples_count_match = len(sample_df[sample_df['assembly_count_match']])
+    if sample_df.empty or 'old_assembly_count' not in sample_df.columns:
+        samples_with_assemblies = 0
+        samples_count_match = 0
+    else:
+        samples_with_assemblies = len(sample_df[sample_df['old_assembly_count'] > 0])
+        samples_count_match = len(sample_df[sample_df['assembly_count_match']])
     samples_count_mismatch = total_samples - samples_count_match
 
     total_assemblies = len(df)
-    df_aln = df[df['alignment_identity'].notna()]
-
-    identical = len(df_aln[df_aln['alignment_identity'] >= 1.0])
-    near_identical = len(df_aln[(df_aln['alignment_identity'] >= 0.999) & (df_aln['alignment_identity'] < 1.0)])
-    minor_diff = len(df_aln[(df_aln['alignment_identity'] >= 0.99) & (df_aln['alignment_identity'] < 0.999)])
-    significant_diff = len(df_aln[df_aln['alignment_identity'] < 0.99])
+    if df.empty or 'alignment_identity' not in df.columns:
+        df_aln = pd.DataFrame()
+    else:
+        df_aln = df[df['alignment_identity'].notna()]
+
+    identical = len(df_aln[df_aln['alignment_identity'] >= 1.0]) if len(df_aln) > 0 else 0
+    near_identical = len(df_aln[(df_aln['alignment_identity'] >= 0.999) & (df_aln['alignment_identity'] < 1.0)]) if len(df_aln) > 0 else 0
+    minor_diff = len(df_aln[(df_aln['alignment_identity'] >= 0.99) & (df_aln['alignment_identity'] < 0.999)]) if len(df_aln) > 0 else 0
+    significant_diff = len(df_aln[df_aln['alignment_identity'] < 0.99]) if len(df_aln) > 0 else 0
 
     with_snps = len(df_aln[df_aln['snp_count'] > 0])
     with_indels = len(df_aln[df_aln['indel_count_events'] > 0])
diff --git a/.agents/skills/regression-testing/run_vadr.sh b/.agents/skills/regression-testing/run_vadr.sh
@@ -12,15 +12,16 @@
 #   ALERTS_TSV - file to write alerts TSV
 #   VADR_TGZ   - file to write full vadr output tarball
 
-set -e
+set -euo pipefail
 
 BASENAME=$(basename "${FASTA}" .fasta)
 
 # Download and unpack VADR models
 if [ -n "${MODEL_URL}" ]; then
   mkdir -p vadr-untar
   curl -fsSL "${MODEL_URL}" | tar -C vadr-untar -xzf -
-  ln -s vadr-untar/*/ vadr-models
+  MODEL_DIR=$(find vadr-untar -mindepth 1 -maxdepth 1 -type d | head -1)
+  ln -s "${MODEL_DIR}" vadr-models
 else
   ln -s /opt/vadr/vadr-models vadr-models
 fi
diff --git a/.claude/rules/container-vulns.md b/.claude/rules/container-vulns.md
@@ -5,6 +5,7 @@ paths:
   - ".trivy-ignore-policy.rego"
   - "vulnerability-mitigation-status.md"
   - ".github/workflows/container-scan.yml"
+  - ".github/workflows/docker.yml"
 ---
 
 For container vulnerability management guidance, see