added parse quast report, fixed quast provenance parsing

Sherrie Wang · Sherrie Wang · commit 48aa7bd6bf06 · 2026-02-03T14:46:55.000-08:00
diff --git a/bin/parse_quast_report.py b/bin/parse_quast_report.py
@@ -0,0 +1,129 @@
+#!/usr/bin/env python3
+
+import argparse
+import collections
+import csv
+import json
+import sys
+
+
+def parse_transposed_quast_report(transposed_quast_report_path):
+    """
+    """
+    field_lookup = collections.OrderedDict()
+    field_lookup['Assembly'] = 'assembly_id'
+    field_lookup['Total length'] = 'total_length'
+    field_lookup['# contigs'] = 'num_contigs'
+    field_lookup['Largest contig'] = 'largest_contig'
+    field_lookup['N50'] = 'assembly_N50'
+    field_lookup['N75'] = 'assembly_N75'
+    field_lookup['L50'] = 'assembly_L50'
+    field_lookup['L75'] = 'assembly_L75'
+    field_lookup["# N's per 100 kbp"] = 'num_N_per_100_kb'
+    field_lookup['# contigs (>= 0 bp)'] = 'num_contigs_gt_0_bp'
+    field_lookup['# contigs (>= 1000 bp)'] = 'num_contigs_gt_1000_bp'
+    field_lookup['# contigs (>= 5000 bp)'] = 'num_contigs_gt_5000_bp'
+    field_lookup['# contigs (>= 10000 bp)'] = 'num_contigs_gt_10000_bp'
+    field_lookup['# contigs (>= 25000 bp)'] = 'num_contigs_gt_25000_bp'
+    field_lookup['# contigs (>= 50000 bp)'] = 'num_contigs_gt_50000_bp'
+    field_lookup['Total length (>= 0 bp)'] = 'total_length_gt_0_bp'
+    field_lookup['Total length (>= 1000 bp)'] = 'total_length_gt_1000_bp'
+    field_lookup['Total length (>= 5000 bp)'] = 'total_length_gt_5000_bp'
+    field_lookup['Total length (>= 10000 bp)'] = 'total_length_gt_10000_bp'
+    field_lookup['Total length (>= 25000 bp)'] = 'total_length_gt_25000_bp'
+    field_lookup['Total length (>= 50000 bp)'] = 'total_length_gt_50000_bp'
+
+
+    int_fields = [
+        'total_length',
+        'num_contigs',
+        'largest_contig',
+        'assembly_N50',
+        'assembly_N75',
+        'assembly_L50',
+        'assembly_L75',
+        'num_contigs_gt_0_bp',
+        'num_contigs_gt_1000_bp',
+        'num_contigs_gt_5000_bp',
+        'num_contigs_gt_10000_bp',
+        'num_contigs_gt_25000_bp',
+        'num_contigs_gt_50000_bp',
+        'total_length_gt_0_bp',
+        'total_length_gt_1000_bp',
+        'total_length_gt_5000_bp',
+        'total_length_gt_10000_bp',
+        'total_length_gt_25000_bp',
+        'total_length_gt_50000_bp',
+    ]
+
+    float_fields = [
+        'num_N_per_100_kb',
+    ]
+
+    parsed_report = []
+    with open(transposed_quast_report_path, 'r', newline='') as f:
+        reader = csv.DictReader(f, dialect='excel-tab')
+        for row in reader:
+            r = collections.OrderedDict()
+            for f in field_lookup:
+                r[field_lookup[f]] = row[f]
+
+            for f in int_fields:
+                try:
+                    r[f] = int(r[f])
+                except ValueError as e:
+                    r[f] = None
+
+            for f in float_fields:
+                try:
+                    r[f] = float(r[f])
+                except ValueError as e:
+                    r[f] = None
+
+            parsed_report.append(r)
+
+    return parsed_report
+
+
+
+def main():
+
+    
+    parser = argparse.ArgumentParser()
+    parser.add_argument('transposed_quast_report')
+    args = parser.parse_args()
+
+    output_fieldnames = [
+        'assembly_id',
+        'total_length',
+        'num_contigs',
+        'largest_contig',
+        'assembly_N50',
+        'assembly_N75',
+        'assembly_L50',
+        'assembly_L75',
+        'num_contigs_gt_0_bp',
+        'num_contigs_gt_1000_bp',
+        'num_contigs_gt_5000_bp',
+        'num_contigs_gt_10000_bp',
+        'num_contigs_gt_25000_bp',
+        'num_contigs_gt_50000_bp',
+        'total_length_gt_0_bp',
+        'total_length_gt_1000_bp',
+        'total_length_gt_5000_bp',
+        'total_length_gt_10000_bp',
+        'total_length_gt_25000_bp',
+        'total_length_gt_50000_bp',
+        'num_N_per_100_kb',
+    ]
+
+    report = parse_transposed_quast_report(args.transposed_quast_report)
+    writer = csv.DictWriter(sys.stdout, fieldnames=output_fieldnames)
+    writer.writeheader()
+    for record in report:
+        writer.writerow(record)
+
+
+
+if __name__ == '__main__':
+    main()
diff --git a/main.nf b/main.nf
@@ -10,8 +10,8 @@ include { parse_quast_report }         from './modules/quast.nf'
 
 process RUN_SHOVILL {
     tag "$sample_id"
-    publishDir "${params.outdir}/${sample_id}", mode: 'copy'
-
+    publishDir "${params.outdir}/${sample_id}_contigs.fa", mode: 'copy'
+    publishDir "${params.outdir}/${sample_id}_shovill.log", mode: 'copy'
 
     input:
     tuple val(sample_id), path(reads_1), path(reads_2)
@@ -104,7 +104,7 @@ workflow {
     cutadapter(fastp.out.trimmed_reads)
     RUN_SHOVILL(cutadapter.out.out_reads)
 
-    quast(RUN_SHOVILL.out.assembly)
+    quast(RUN_SHOVILL.out.contigs)
     parse_quast_report(quast.out.tsv)
 
     ch_provenance = ch_fastq.map{ it -> it[0] }
diff --git a/modules/quast.nf b/modules/quast.nf
@@ -1,56 +1,56 @@
 process quast {
 
-    tag { sample_id + ' / ' + assembly_mode }
+    tag { sample_id + ' /short '}
 
     input:
-    tuple val(sample_id), path(assembly), val(assembler), val(assembly_mode)
+    tuple val(sample_id), path(assembly)
 
     output:
-    tuple val(sample_id), path("${sample_id}_${assembler}_${assembly_mode}_quast.tsv"), val(assembler), val(assembly_mode), emit: tsv
-    tuple val(sample_id), path("${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml"),                          emit: provenance
+    tuple val(sample_id), path("${sample_id}_${params.assembler}_short_quast.tsv"), emit: tsv
+    tuple val(sample_id), path("${sample_id}_${params.assembler}_short_quast_provenance.yml"),                          emit: provenance
 
     script:
     """
-    printf -- "- process_name: quast\\n"                                                 >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "  tools:\\n"                                                              >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "    - tool_name: quast\\n"                                                >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "      tool_version: \$(quast --version | cut -d ' ' -f 2 | tr -d 'v')\\n" >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "      parameters:\\n"                                                     >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "        - parameter: --space-efficient\\n"                                >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "          value: null\\n"                                                 >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "        - parameter: --fast\\n"                                           >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "          value: null\\n"                                                 >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "        - parameter: --min-contig\\n"                                     >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
-    printf -- "          value: 0\\n"                                                    >> ${sample_id}_${assembler}_${assembly_mode}_quast_provenance.yml
+    printf -- "- process_name: quast\\n"                                                 >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "  tools:\\n"                                                              >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "    - tool_name: quast\\n"                                                >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "      tool_version: \$(quast.py --version 2>&1 | awk '/QUAST v/{gsub(/.*QUAST v/, ""); gsub(/ .*/, ""); print}')\\n" >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "      parameters:\\n"                                                     >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "        - parameter: --space-efficient\\n"                                >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "          value: null\\n"                                                 >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "        - parameter: --fast\\n"                                           >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "          value: null\\n"                                                 >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "        - parameter: --min-contig\\n"                                     >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
+    printf -- "          value: 0\\n"                                                    >> ${sample_id}_${params.assembler}_short_quast_provenance.yml
 
     quast \
         --threads ${task.cpus} \
         --space-efficient \
         --fast \
-	--min-contig 0 \
+	    --min-contig 0 \
+        --x-for-Nx 75\
         --output-dir ${sample_id} \
         ${assembly}
 
-    mv ${sample_id}/transposed_report.tsv ${sample_id}_${assembler}_${assembly_mode}_quast.tsv
+    mv ${sample_id}/transposed_report.tsv ${sample_id}_${params.assembler}_short_quast.tsv
     """
 }
 
 process parse_quast_report {
 
-    tag { sample_id + ' / ' + assembly_mode }
+    tag { sample_id + ' /short '}
 
     executor 'local'
 
-    publishDir "${params.outdir}/${sample_id}", pattern: "${sample_id}_${assembler}_${assembly_mode}_quast.csv", mode: 'copy'
+    publishDir "${params.outdir}/${sample_id}", pattern: "${sample_id}_${params.assembler}_short_quast.csv", mode: 'copy'
 
     input:
-    tuple val(sample_id), path(quast_report), val(assembler), val(assembly_mode)
-
+    tuple val(sample_id), path(quast_report)
     output:
-    tuple val(sample_id), path("${sample_id}_${assembler}_${assembly_mode}_quast.csv")
+    tuple val(sample_id), path("${sample_id}_${params.assembler}_short_quast.csv")
 
     script:
     """
-    parse_quast_report.py ${quast_report} > ${sample_id}_${assembler}_${assembly_mode}_quast.csv
+    parse_quast_report.py ${quast_report} > ${sample_id}_${params.assembler}_short_quast.csv
     """
 }
diff --git a/nextflow.config b/nextflow.config
@@ -1,7 +1,7 @@
 manifest {
     author = 'Sherrie Wang'
     name = 'BCCDC-PHL/nf-shovill'
-    version = '0.0.7'
+    version = '0.1.2'
     description = 'BCCDC-PHL Bacterial Assembly'
     mainScript = 'main.nf'
     nextflowVersion = '>=20.01.0'
@@ -53,7 +53,7 @@ profiles {
   apptainer {
     apptainer.enabled = true
     apptainer.autoMounts = true
-    process.container = "oras://community.wave.seqera.io/library/nf-shovill:b0425123a400cf5d"
+    process.container = "oras://community.wave.seqera.io/library/nf-shovill:1a5464527d03159e"
     process.containerOptions = '--env PYTHONWARNINGS=ignore'
     if (params.cache){
 	    apptainer.cacheDir = params.cache