BCCDC-PHL
diff --git a/‎.github/config/nextflow.config
Lines changed: 21 additions & 0 deletions b/‎.github/config/nextflow.config
Lines changed: 21 additions & 0 deletions
diff --git a/‎.github/data/kraken2_db/taxonomy/nucl_gb.accession2taxid
Lines changed: 5 additions & 0 deletions b/‎.github/data/kraken2_db/taxonomy/nucl_gb.accession2taxid
Lines changed: 5 additions & 0 deletions
diff --git a/‎.github/data/mock_runs/210101_M00000_0000_000000000-A1B2C/Data/Intensities/BaseCalls/placeholder b/‎.github/data/mock_runs/210101_M00000_0000_000000000-A1B2C/Data/Intensities/BaseCalls/placeholder
diff --git a/‎.github/data/mock_runs/210101_M00000_0000_000000000-A1B2C/SampleSheet.csv
Lines changed: 2 additions & 2 deletions b/‎.github/data/mock_runs/210101_M00000_0000_000000000-A1B2C/SampleSheet.csv
Lines changed: 2 additions & 2 deletions
diff --git a/‎.github/data/ref_genome_list.txt
Lines changed: 0 additions & 4 deletions b/‎.github/data/ref_genome_list.txt
Lines changed: 0 additions & 4 deletions
diff --git a/‎.github/scripts/create_bracken_db.sh
Lines changed: 15 additions & 0 deletions b/‎.github/scripts/create_bracken_db.sh
Lines changed: 15 additions & 0 deletions
diff --git a/‎.github/scripts/create_kraken2_db.sh
Lines changed: 23 additions & 0 deletions b/‎.github/scripts/create_kraken2_db.sh
Lines changed: 23 additions & 0 deletions
diff --git a/‎.github/scripts/download_example_interop_data.sh
Lines changed: 29 additions & 0 deletions b/‎.github/scripts/download_example_interop_data.sh
Lines changed: 29 additions & 0 deletions
diff --git a/‎.github/scripts/download_reference_genomes.sh
Lines changed: 5 additions & 3 deletions b/‎.github/scripts/download_reference_genomes.sh
Lines changed: 5 additions & 3 deletions
diff --git a/‎.github/scripts/generate_simulated_reads.sh
Lines changed: 21 additions & 0 deletions b/‎.github/scripts/generate_simulated_reads.sh
Lines changed: 21 additions & 0 deletions
@@ -0,0 +1,21 @@
+params {
+  kraken2_db = ".github/data/kraken2_db"
+  bracken_db = ".github/data/kraken2_db"
+  instrument_type = "miseq"
+}
+
+profiles {
+  conda {
+    process.conda = "$baseDir/environments/environment.yml"
+    if (params.cache){
+     conda.cacheDir = params.cache
+    }
+  }
+}
+
+
+// Capture exit codes from upstream processes when piping
+process.shell = ['/bin/bash', '-euo', 'pipefail']
+
+process.executor = 'local'
+process.cpus = 2
@@ -0,0 +1,5 @@
+accession	accession.version	taxid	gi
+NC_002695	NC_002695.2	386585	1447699251
+NC_016845	NC_016845.1	1125630	378976159
+NZ_CP033744	NZ_CP033744.1	546	1520496619
+NC_003197	NC_003197.2	99287	1109557564
@@ -10,8 +10,8 @@ Assay,Illumina DNA Prep
 Index Adapters,IDT-Ilmn DNA-RNA UD Indexes SetA Tagmentation
 Chemistry,Amplicon
 [Reads]
-151
-151
+251
+251
 [Settings]
 ReverseComplement,0
 Adapter,CTGTCTCTTATACACATCT
 
@@ -0,0 +1,15 @@
+#!/bin/bash
+
+set -eo pipefail
+
+export PATH=/opt/miniconda3/bin:$PATH
+
+pushd ${PWD}/.github/data
+
+bracken-build -d kraken2_db -l 250 > bracken_build.log
+
+kraken2-build --clean --db kraken2_db
+
+popd
+
+cp ${PWD}/.github/data/bracken_build.log artifacts
@@ -0,0 +1,23 @@
+#!/bin/bash
+
+set -eo pipefail
+
+export PATH=/opt/miniconda3/bin:$PATH
+
+pushd ${PWD}/.github/data/kraken2_db/taxonomy
+
+rsync --no-motd rsync://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz .
+
+tar -xzf taxdump.tar.gz && rm taxdump.tar.gz
+
+pushd ../..
+
+for file in ref_genomes/*.fa; do
+    kraken2-build --add-to-library ${file} --db kraken2_db
+done
+
+kraken2-build --build --db kraken2_db > kraken_build.log
+
+popd && popd
+
+cp ${PWD}/.github/data/kraken_build.log artifacts
@@ -0,0 +1,29 @@
+#!/bin/bash
+
+set -eo pipefail
+
+pushd ${PWD}/.github/data
+
+# Only publicly-available InterOp data I've found...
+wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
+
+tar -xzf cellranger-tiny-bcl-1.2.0.tar.gz && rm cellranger-tiny-bcl-1.2.0.tar.gz
+
+mv cellranger-tiny-bcl-1.2.0/InterOp mock_runs/210101_M00000_0000_000000000-A1B2C
+mv cellranger-tiny-bcl-1.2.0/RunInfo.xml mock_runs/210101_M00000_0000_000000000-A1B2C
+mv cellranger-tiny-bcl-1.2.0/runParameters.xml mock_runs/210101_M00000_0000_000000000-A1B2C
+
+rm -r cellranger-tiny-bcl-1.2.0
+
+# RunInfo.xml doesn't match InterOp data for some reason, so
+# edit RunInfo.xml to match
+cat mock_runs/210101_M00000_0000_000000000-A1B2C/RunInfo.xml | \
+    sed 's/LaneCount="1"/LaneCount="2"/' | \
+    sed 's/SurfaceCount="1"/SurfaceCount="2"/' | \
+    sed 's/SwathCount="1"/SwathCount="2"/' | \
+    sed 's/TileCount="1"/TileCount="32"/' \
+	> RunInfo.edited.xml
+
+mv RunInfo.edited.xml mock_runs/210101_M00000_0000_000000000-A1B2C/RunInfo.xml
+
+popd
@@ -2,15 +2,17 @@
 
 set -eo pipefail
 
+export PATH=/opt/miniconda3/bin:${PATH}
+
 echo "Download Reference Genomes..." >> artifacts/test_artifact.log
 
 mkdir -p $PWD/.github/data/ref_genomes
 
 pushd $PWD/.github/data/ref_genomes
 
-while read -r accession; do
-    ncbi-acc-download --format fasta ${accession}
+while IFS=$'\t' read -r accession accession_version taxid gi ; do
+    ncbi-acc-download --format fasta ${accession_version}
     sleep 5
-done < ../ref_genome_list.txt
+done < <(tail -n+2 ../kraken2_db/taxonomy/nucl_gb.accession2taxid)
 
 popd
@@ -0,0 +1,21 @@
+#!/bin/bash
+
+set -eo pipefail
+
+export PATH=/opt/art/bin/:${PATH}
+
+pushd ${PWD}/.github/data/mock_runs/210101_M00000_0000_000000000-A1B2C/Data/Intensities/BaseCalls/
+
+art_illumina --seqSys MSv3 --paired -i ../../../../../ref_genomes/NC_002695.2.fa --fcov 5 --mflen 500 --sdev 25 --len 250 --noALN -o test-01_R > ../../../../../../../artifacts/test-01_read_generation_log.txt
+
+art_illumina --seqSys MSv3 --paired -i ../../../../../ref_genomes/NC_016845.1.fa --fcov 5 --mflen 500 --sdev 25 --len 250 --noALN -o test-02_R > ../../../../../../../artifacts/test-02_read_generation_log.txt
+
+art_illumina --seqSys MSv3 --paired -i ../../../../../ref_genomes/NZ_CP033744.1.fa --fcov 5 --mflen 500 --sdev 25 --len 250 --noALN -o test-03_R > ../../../../../../../artifacts/test-03_read_generation_log.txt
+
+art_illumina --seqSys MSv3 --paired -i ../../../../../ref_genomes/NC_003197.2.fa --fcov 5 --mflen 500 --sdev 25 --len 250 --noALN -o negative-control_R > ../../../../../../../artifacts/negative-control_read_generation_log.txt
+
+rename s/fq/fastq/ *.fq
+
+gzip *.fastq
+
+popd