Merge pull request #594 from broadinstitute/dp-cleanup

dpark01 · web-flow · commit 6486c787d20b · 2025-05-15T20:28:21.000-04:00
metagenomic denovo optimizations and fixes
diff --git a/pipes/WDL/tasks/tasks_ncbi.wdl b/pipes/WDL/tasks/tasks_ncbi.wdl
@@ -75,6 +75,54 @@ task download_annotations {
   }
 }
 
+task download_ref_genomes_from_tsv {
+  input {
+    File      ref_genomes_tsv    # [tax_id, isolate_prefix, taxname, colon_delim_accession_list]
+    String    emailAddress
+
+    String    docker = "quay.io/broadinstitute/viral-phylo:2.4.1.0"
+  }
+
+  command <<<
+    set -ex -o pipefail
+    ncbi.py --version | tee VERSION
+    mkdir -p combined
+
+    python3<<CODE
+    import csv
+    import phylo.genbank
+    with open("~{ref_genomes_tsv}", 'rt') as inf:
+      reader = csv.DictReader(inf, delimiter='\t',
+        fieldnames=['tax_id', 'isolate_prefix', 'taxname', 'accessions']) # backwards support for headerless tsvs
+      # for the future: batch all the downloads in a single call and re-organize output files afterwards
+      for ref_genome in reader:
+        if ref_genome['tax_id'] != 'tax_id': # skip header
+          accessions = ref_genome['accessions'].split(':')
+          phylo.genbank.fetch_fastas_from_genbank(
+            accessionList=accessions,
+            destinationDir=".",
+            emailAddress="~{emailAddress}",
+            forceOverwrite=True,
+            combinedFilePrefix="combined/" + '-'.join(accessions),
+            removeSeparateFiles=False,
+            chunkSize=500)
+    CODE
+  >>>
+
+  output {
+    Array[File] ref_genomes_fastas  = glob("combined/*.fasta")
+    Int         num_references      = length(ref_genomes_fastas)
+  }
+
+  runtime {
+    docker: docker
+    memory: "7 GB"
+    cpu: 2
+    dx_instance_type: "mem2_ssd1_v2_x2"
+    maxRetries: 2
+  }
+}
+
 task sequencing_platform_from_bam {
   input {
     File    bam
diff --git a/pipes/WDL/workflows/assemble_denovo_metagenomic.wdl b/pipes/WDL/workflows/assemble_denovo_metagenomic.wdl
@@ -38,6 +38,7 @@ workflow assemble_denovo_metagenomic {
         Array[String] taxa_to_dehost         = ["Vertebrata"]
         Array[String] taxa_to_avoid_assembly = ["Vertebrata", "other sequences", "Bacteria"]
 
+        String        table_name = "sample"
     }
 
     Int    min_scaffold_unambig = 300 # in base-pairs; any scaffolded assembly < this length will not be refined/polished
@@ -149,30 +150,21 @@ workflow assemble_denovo_metagenomic {
             kraken_summary_report = kraken2.kraken2_summary_report
     }
 
-    # download (multi-segment) genomes for each reference, fasta filename = colon-concatenated accession list
-    scatter(taxon in read_tsv(taxid_to_ref_accessions_tsv)) {
-        # taxon = [taxid, isolate_prefix, taxname, semicolon_delim_accession_list]
-        call utils.string_split {
-            input:
-                joined_string = taxon[3],
-                delimiter = ":"
-        }
-        call ncbi.download_annotations {
-            input:
-                accessions = string_split.tokens,
-                combined_out_prefix = sub(taxon[3], ":", "-")  # singularity does not like colons in filenames
-        }
+    # download (multi-segment) genomes for each reference, fasta filename = dash-concatenated accession list
+    call ncbi.download_ref_genomes_from_tsv {
+        input:
+            ref_genomes_tsv = taxid_to_ref_accessions_tsv
     }
 
     # subset reference genomes to those with ANI hits to contigs and cluster reference hits by any ANI similarity to each other
     call assembly.select_references {
         input:
-            reference_genomes_fastas = download_annotations.combined_fasta,
+            reference_genomes_fastas = download_ref_genomes_from_tsv.ref_genomes_fastas,
             contigs_fasta = spades.contigs_fasta
     }
 
     # assemble and produce stats for every reference cluster
-    Array[String] assembly_header = ["entity:assembly_id", "assembly_name", "sample_id", "sample_name", "taxid", "tax_name", "tax_shortname", "assembly_fasta", "aligned_only_reads_bam", "coverage_plot", "assembly_length", "assembly_length_unambiguous", "reads_aligned", "mean_coverage", "percent_reference_covered", "scaffolding_num_segments_recovered", "reference_num_segments_required", "reference_length", "reference_accessions", "skani_num_ref_clusters", "skani_this_cluster_num_refs", "skani_dist_tsv", "scaffolding_ani", "scaffolding_pct_ref_cov", "intermediate_gapfill_fasta", "assembly_preimpute_length_unambiguous", "replicate_concordant_sites", "replicate_discordant_snps", "replicate_discordant_indels", "replicate_discordant_vcf", "isnvsFile", "aligned_bam", "coverage_tsv", "read_pairs_aligned", "bases_aligned", "assembly_method", "assembly_method_version", "biosample_accession", "batch_ids", "sample"]
+    Array[String] assembly_header = ["entity:assembly_id", "assembly_name", "sample_id", "sample_name", "taxid", "tax_name", "tax_shortname", "assembly_fasta", "aligned_only_reads_bam", "coverage_plot", "assembly_length", "assembly_length_unambiguous", "reads_aligned", "mean_coverage", "percent_reference_covered", "scaffolding_num_segments_recovered", "reference_num_segments_required", "reference_length", "reference_accessions", "skani_num_ref_clusters", "skani_this_cluster_num_refs", "skani_dist_tsv", "scaffolding_ani", "scaffolding_pct_ref_cov", "intermediate_gapfill_fasta", "assembly_preimpute_length_unambiguous", "replicate_concordant_sites", "replicate_discordant_snps", "replicate_discordant_indels", "replicate_discordant_vcf", "isnvsFile", "aligned_bam", "coverage_tsv", "read_pairs_aligned", "bases_aligned", "assembly_method", "assembly_method_version", "biosample_accession", "batch_ids", "~{table_name}"]
     scatter(ref_cluster_tar in select_references.matched_reference_clusters_fastas_tars) {
 
         call utils.tar_extract {
@@ -197,9 +189,9 @@ workflow assemble_denovo_metagenomic {
                 tsv = taxid_to_ref_accessions_tsv,
                 idx_col = "accessions",
                 idx_val = sub(scaffold.scaffolding_chosen_ref_basename, "-", ":"),
-                add_header = ["taxid", "isolate_prefix", "taxname", "accessions"]
+                add_header = ["tax_id", "isolate_prefix", "taxname", "accessions"]
         }
-        String taxid = tax_lookup.map["taxid"]
+        String taxid = tax_lookup.map["tax_id"]
         String tax_name = tax_lookup.map["taxname"]
         String isolate_prefix = tax_lookup.map["isolate_prefix"]
 
@@ -266,7 +258,7 @@ workflow assemble_denovo_metagenomic {
 
             "batch_ids" :          unique_batch_ids.sorted_unique_joined,
 
-            "sample":              '{"entityType":"sample","entityName":"' + sample_id + '"}'
+            "~{table_name}":            '{"entityType":"~{table_name}","entityName":"' + sample_id + '"}'
         }
 
         if(assembly_length_unambiguous > min_scaffold_unambig) {
diff --git a/pipes/WDL/workflows/scaffold_and_refine_multitaxa.wdl b/pipes/WDL/workflows/scaffold_and_refine_multitaxa.wdl
@@ -22,35 +22,28 @@ workflow scaffold_and_refine_multitaxa {
         File    taxid_to_ref_accessions_tsv
 
         String? biosample_accession
+
+        String  table_name = "sample"
     }
 
     Int    min_scaffold_unambig = 300 # in base-pairs; any scaffolded assembly < this length will not be refined/polished
     String sample_original_name = select_first([sample_name, sample_id])
 
-    # download (multi-segment) genomes for each reference, fasta filename = colon-concatenated accession list
-    scatter(taxon in read_tsv(taxid_to_ref_accessions_tsv)) {
-        # taxon = [taxid, isolate_prefix, taxname, semicolon_delim_accession_list]
-        call utils.string_split {
-            input:
-                joined_string = taxon[3],
-                delimiter = ":"
-        }
-        call ncbi.download_annotations {
-            input:
-                accessions = string_split.tokens,
-                combined_out_prefix = sub(taxon[3], ":", "-")  # singularity does not like colons in filenames
-        }
+    # download (multi-segment) genomes for each reference, fasta filename = dash-concatenated accession list
+    call ncbi.download_ref_genomes_from_tsv {
+        input:
+            ref_genomes_tsv = taxid_to_ref_accessions_tsv
     }
 
     # subset reference genomes to those with ANI hits to contigs and cluster reference hits by any ANI similarity to each other
     call assembly.select_references {
         input:
-            reference_genomes_fastas = download_annotations.combined_fasta,
+            reference_genomes_fastas = download_ref_genomes_from_tsv.ref_genomes_fastas,
             contigs_fasta = contigs_fasta
     }
 
     # assemble and produce stats for every reference cluster
-    Array[String] assembly_header = ["entity:assembly_id", "assembly_name", "sample_id", "sample_name", "taxid", "tax_name", "tax_shortname", "assembly_fasta", "aligned_only_reads_bam", "coverage_plot", "assembly_length", "assembly_length_unambiguous", "reads_aligned", "mean_coverage", "percent_reference_covered", "scaffolding_num_segments_recovered", "reference_num_segments_required", "reference_length", "reference_accessions", "skani_num_ref_clusters", "skani_this_cluster_num_refs", "skani_dist_tsv", "scaffolding_ani", "scaffolding_pct_ref_cov", "intermediate_gapfill_fasta", "assembly_preimpute_length_unambiguous", "replicate_concordant_sites", "replicate_discordant_snps", "replicate_discordant_indels", "replicate_discordant_vcf", "isnvsFile", "aligned_bam", "coverage_tsv", "read_pairs_aligned", "bases_aligned", "assembly_method", "assembly_method_version", "biosample_accession", "sample"]
+    Array[String] assembly_header = ["entity:assembly_id", "assembly_name", "sample_id", "sample_name", "taxid", "tax_name", "tax_shortname", "assembly_fasta", "aligned_only_reads_bam", "coverage_plot", "assembly_length", "assembly_length_unambiguous", "reads_aligned", "mean_coverage", "percent_reference_covered", "scaffolding_num_segments_recovered", "reference_num_segments_required", "reference_length", "reference_accessions", "skani_num_ref_clusters", "skani_this_cluster_num_refs", "skani_dist_tsv", "scaffolding_ani", "scaffolding_pct_ref_cov", "intermediate_gapfill_fasta", "assembly_preimpute_length_unambiguous", "replicate_concordant_sites", "replicate_discordant_snps", "replicate_discordant_indels", "replicate_discordant_vcf", "isnvsFile", "aligned_bam", "coverage_tsv", "read_pairs_aligned", "bases_aligned", "assembly_method", "assembly_method_version", "biosample_accession", "~{table_name}"]
     scatter(ref_cluster_tar in select_references.matched_reference_clusters_fastas_tars) {
 
         call utils.tar_extract {
@@ -142,7 +135,7 @@ workflow scaffold_and_refine_multitaxa {
 
             "biosample_accession" :     select_first([biosample_accession, ""]),
 
-            "sample":              '{"entityType":"sample","entityName":"' + sample_id + '"}'
+            "~{table_name}":            '{"entityType":"~{table_name}","entityName":"' + sample_id + '"}'
         }
 
         if(assembly_length_unambiguous > min_scaffold_unambig) {