Adjust bracken results for unclassified reads (#69)

dfornika · web-flow · commit a08f288449b5 · 2023-08-09T15:19:52.000-07:00
diff --git a/bin/adjust_for_unclassified_reads.py b/bin/adjust_for_unclassified_reads.py
@@ -0,0 +1,188 @@
+#!/usr/bin/env python3
+
+import argparse
+import csv
+import json
+
+
+def parse_kraken_report(kraken_report_path):
+    kraken_report = []
+
+    fieldnames = [
+        'percent_seqs_this_clade',
+        'num_seqs_this_clade',
+        'num_seqs_this_taxon',
+        'taxonomic_level',
+        'ncbi_taxonomy_id',
+        'taxon_name',
+    ]
+    int_fields = [
+        'num_seqs_this_clade',
+        'num_seqs_this_taxon',
+    ]
+    float_fields = [
+        'percent_seqs_this_clade',
+    ]
+    with open(kraken_report_path, 'r') as f:
+        reader = csv.DictReader(f, fieldnames=fieldnames, dialect='excel-tab')
+        for row in reader:
+            for field in int_fields:
+                try:
+                    row[field] = int(row[field])
+                except ValueError as e:
+                    row[field] = None
+            for field in float_fields:
+                try:
+                    row[field] = float(row[field])
+                except ValueError as e:
+                    row[field] = None
+            kraken_report.append(row)
+    
+    return kraken_report
+
+
+def parse_bracken_abundances(bracken_abundances_path):
+    bracken_abundances = []
+    int_fields = [
+        'kraken_assigned_reads',
+        'added_reads',
+        'new_est_reads',
+    ]
+    float_fields = [
+        'fraction_total_reads',
+    ]
+    with open(bracken_abundances_path, 'r') as f:
+        reader = csv.DictReader(f, dialect='excel-tab')
+        for row in reader:
+            for field in int_fields:
+                try:
+                    row[field] = int(row[field])
+                except ValueError as e:
+                    row[field] = None
+            for field in float_fields:
+                try:
+                    row[field] = float(row[field])
+                except ValueError as e:
+                    row[field] = None
+            bracken_abundances.append(row)
+
+    return bracken_abundances
+
+
+def get_num_unclassified_seqs(parsed_kraken_report):
+    unclassified_records = list(filter(lambda x: x['ncbi_taxonomy_id'] == "0", parsed_kraken_report))
+    num_unclassified_seqs = 0
+    if len(unclassified_records) > 0:
+        unclassified_record = unclassified_records[0]
+        if 'num_seqs_this_taxon' in unclassified_record:
+            num_unclassified_seqs = unclassified_record['num_seqs_this_taxon']
+
+    return num_unclassified_seqs
+
+
+def get_num_classified_seqs(parsed_kraken_report):
+    root_records = list(filter(lambda x: x['ncbi_taxonomy_id'] == "1", parsed_kraken_report))
+    num_classified_seqs = 0
+    if len(root_records) > 0:
+        root_record = root_records[0]
+        if 'num_seqs_this_clade' in root_record:
+            num_classified_seqs = root_record['num_seqs_this_clade']
+
+    return num_classified_seqs
+
+
+def adjust_bracken_report(bracken_report, num_unclassified_seqs):
+    adjusted_bracken_report = []
+    unclassified_record = {
+        "num_seqs_this_clade": num_unclassified_seqs,
+        "num_seqs_this_taxon": num_unclassified_seqs,
+        "taxonomic_level": "U",
+        "ncbi_taxonomy_id": "0",
+        "taxon_name": "unclassified"
+    }
+    root_bracken_records = list(filter(lambda x: x['ncbi_taxonomy_id'] == "1", bracken_report))
+    
+    if len(root_bracken_records) > 0:
+        root_bracken_record = root_bracken_records[0]
+        num_classified_seqs = root_bracken_record['num_seqs_this_clade']
+        total_seqs = num_classified_seqs + num_unclassified_seqs
+        if total_seqs > 0:
+            unclassified_record['percent_seqs_this_clade'] = round(unclassified_record['num_seqs_this_clade'] / total_seqs * 100, 2)
+            adjusted_bracken_report.append(unclassified_record)
+            for bracken_report_record in bracken_report:
+                bracken_report_record['percent_seqs_this_clade'] = round(bracken_report_record['num_seqs_this_clade'] / total_seqs * 100, 2)
+                adjusted_bracken_report.append(bracken_report_record)
+
+    return adjusted_bracken_report
+
+
+def adjust_bracken_abundances(bracken_abundances, num_total_seqs, num_unclassified_seqs):
+    adjusted_bracken_abundances = []
+    unclassified_record = {
+        "name": "unclassified",
+        "taxonomy_id": "0",
+        "taxonomy_lvl": "U",
+        "kraken_assigned_reads": num_unclassified_seqs,
+        "added_reads": 0,
+        "new_est_reads": num_unclassified_seqs,
+    }
+    if num_total_seqs > 0:
+        unclassified_record['fraction_total_reads'] = round(num_unclassified_seqs / num_total_seqs, 6)
+        adjusted_bracken_abundances.append(unclassified_record)
+        for bracken_abundance_record in bracken_abundances:
+            bracken_abundance_record['fraction_total_reads'] = round(bracken_abundance_record['new_est_reads'] / num_total_seqs, 6)
+            adjusted_bracken_abundances.append(bracken_abundance_record)
+
+    return adjusted_bracken_abundances
+
+
+def main(args):
+
+    kraken_report = parse_kraken_report(args.kraken_report)
+    num_unclassified_seqs = get_num_unclassified_seqs(kraken_report)
+    num_classified_seqs = get_num_classified_seqs(kraken_report)
+    num_total_seqs = num_unclassified_seqs + num_classified_seqs
+
+    bracken_report = parse_kraken_report(args.bracken_report)
+    adjusted_bracken_report = adjust_bracken_report(bracken_report, num_unclassified_seqs)
+    bracken_abundances = parse_bracken_abundances(args.bracken_abundances)
+    adjusted_bracken_abundances = adjust_bracken_abundances(bracken_abundances, num_total_seqs, num_unclassified_seqs)
+
+    abundances_output_fieldnames = [
+        'name',
+        'taxonomy_id',
+        'taxonomy_lvl',
+        'kraken_assigned_reads',
+        'added_reads',
+        'new_est_reads',
+        'fraction_total_reads',
+    ]
+    with open(args.adjusted_abundances, 'w') as f:
+        writer = csv.DictWriter(f, fieldnames=abundances_output_fieldnames, dialect='excel-tab', quoting=csv.QUOTE_MINIMAL)
+        writer.writeheader()
+        for row in adjusted_bracken_abundances:
+            writer.writerow(row)
+
+    report_output_fieldnames = [
+        'percent_seqs_this_clade',
+        'num_seqs_this_clade',
+        'num_seqs_this_taxon',
+        'taxonomic_level',
+        'ncbi_taxonomy_id',
+        'taxon_name',
+    ]
+    with open(args.adjusted_report, 'w') as f:
+        writer = csv.DictWriter(f, fieldnames=report_output_fieldnames, dialect='excel-tab', quoting=csv.QUOTE_MINIMAL)
+        for row in adjusted_bracken_report:
+            writer.writerow(row)
+    
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('-k', '--kraken-report')
+    parser.add_argument('-b', '--bracken-report')
+    parser.add_argument('-a', '--bracken-abundances')
+    parser.add_argument('--adjusted-report')
+    parser.add_argument('--adjusted-abundances')
+    args = parser.parse_args()
+    main(args)
diff --git a/main.nf b/main.nf
@@ -47,13 +47,13 @@ workflow {
     kraken2(ch_fastq.combine(ch_kraken2_db))
     bracken(kraken2.out.combine(ch_bracken_db).combine(parse_sample_sheet.out).combine(ch_taxonomic_levels).unique{ it -> [it[0], it[4]] })
 
-    abundance_top_n(bracken.out)
+    abundance_top_n(bracken.out.adjusted)
 
     abundance_top_n.out.filter{ it[2] == 'Genus' }.map{ it -> it[1] }.collectFile(keepHeader: true, sort: { it.text }, name: "top_3_abundances_genus.csv", storeDir: "${params.outdir}/abundance_top_n")
     abundance_top_n.out.filter{ it[2] == 'Species' }.map{ it -> it[1] }.collectFile(keepHeader: true, sort: { it.text }, name: "top_5_abundances_species.csv", storeDir: "${params.outdir}/abundance_top_n")
     
     ch_fastqc_collected = fastqc.out.map{ it -> [it[1], it[2]] }.collect()
-    ch_bracken_species_multiqc_collected = bracken.out.filter{ it[4] == 'Species' }.map{ it -> it[2] }.collect()
+    ch_bracken_species_multiqc_collected = bracken.out.adjusted.filter{ it[3] == 'Species' }.map{ it -> it[1] }.collect()
     ch_all_qc_outputs = interop_summary.out.map{ it -> it.drop(1) }.combine(ch_fastqc_collected).combine(ch_bracken_species_multiqc_collected)
 
     combine_qc_stats(abundance_top_n.out.filter{ it[2] == 'Species' }.map{ it -> [it[0], it[1]] }.join(seqtk_fqchk_summary.out.map{ it -> [it[0], it[1]] }).join(mash_sketch_summary.out)).map{ it -> it[1] }.collectFile(keepHeader: true, sort: { it.text }, name: "basic_qc_stats.csv", storeDir: "${params.outdir}/basic_qc_stats")
diff --git a/modules/bracken.nf b/modules/bracken.nf
@@ -12,30 +12,33 @@ process bracken {
       tuple val(sample_id), path(kraken2_report), path(bracken_db), path(sample_sheet_json), val(taxonomic_level)
 
     output:
-      tuple val(sample_id), path("${sample_id}_${taxonomic_level}_bracken.txt"), path("${sample_id}_${taxonomic_level}_multiqc_bracken.txt"), path("${sample_id}_${taxonomic_level}_bracken_abundances.tsv"), val(taxonomic_level)
+      tuple val(sample_id), path("${sample_id}_${taxonomic_level}_bracken.txt"), path("${sample_id}_${taxonomic_level}_bracken_abundances.tsv"), val(taxonomic_level), emit: unadjusted
+      tuple val(sample_id), path("${sample_id}_${taxonomic_level}_bracken_adjusted.txt"), path("${sample_id}_${taxonomic_level}_bracken_abundances_adjusted.tsv"), val(taxonomic_level), emit: adjusted
 
     script:
     taxonomic_level_char = taxonomic_level.substring(0,1)
-    // MultiQC uses the following regex on the first two lines of a file to identify it as a kraken output:
-    // '^\s{1,2}(\d{1,2}\.\d{1,2})\t(\d+)\t(\d+)\t([\dUDKPCOFGS-]{1,3})\t(\d+)\s+(.+)'
-    // The output is modified slightly to mimic kraken2 output so that it can be parsed by MultiQC.
-    // The original outputs are stored to the output dir, and the modified ones are sent to MultiQC.
     """
     bracken -d ${bracken_db} \
       -i ${kraken2_report} \
       -w ${sample_id}_${taxonomic_level}_bracken.txt \
       -o ${sample_id}_${taxonomic_level}_bracken_abundances_unsorted.tsv \
       -r \$(get_read_length.py ${sample_sheet_json}) \
       -l ${taxonomic_level_char}
+
     head -n 1 ${sample_id}_${taxonomic_level}_bracken_abundances_unsorted.tsv > bracken_abundances_header.tsv
     tail -n+2 ${sample_id}_${taxonomic_level}_bracken_abundances_unsorted.tsv | sort -t \$'\\t' -nrk 7,7 > ${sample_id}_${taxonomic_level}_bracken_abundances_data.tsv
     cat bracken_abundances_header.tsv ${sample_id}_${taxonomic_level}_bracken_abundances_data.tsv > ${sample_id}_${taxonomic_level}_bracken_abundances.tsv
-    sed 's/100\\.00/99\\.99/' ${sample_id}_${taxonomic_level}_bracken.txt | awk 'NR != 2' | awk '{print " ", \$0}' > ${sample_id}_${taxonomic_level}_bracken_tmp.txt
-    echo -e "  0.01\\t1\\t1\\tU\\t1\\tunclassified" > unclassified_placeholder.tsv
-    cat unclassified_placeholder.tsv ${sample_id}_${taxonomic_level}_bracken_tmp.txt > ${sample_id}_${taxonomic_level}_multiqc_bracken.txt
+
+    adjust_for_unclassified_reads.py \
+      --kraken-report ${kraken2_report} \
+      --bracken-report ${sample_id}_${taxonomic_level}_bracken.txt \
+      --bracken-abundances ${sample_id}_${taxonomic_level}_bracken_abundances.tsv \
+      --adjusted-report ${sample_id}_${taxonomic_level}_bracken_adjusted.txt \
+      --adjusted-abundances ${sample_id}_${taxonomic_level}_bracken_abundances_adjusted.tsv
     """
 }
 
+
 process abundance_top_n {
 
     tag { sample_id + " / " + taxonomic_level }
@@ -47,7 +50,7 @@ process abundance_top_n {
     cpus 1
 
     input:
-      tuple val(sample_id), path(_), path(_2), path(bracken_abundances), val(taxonomic_level)
+      tuple val(sample_id), path(_), path(bracken_abundances), val(taxonomic_level)
 
     output:
       tuple val(sample_id), path("${sample_id}_${taxonomic_level}_top_*.tsv"), val(taxonomic_level)