ONT_seq_PAIP1_Hondele/ONT_seq_PAIP1_Hondele.template.env at main · zavolanlab/ONT_seq_PAIP1_Hondele · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# ==========================================
# ONT_seq_PAIP1 - scicore HPC Environment
# ==========================================

# --- Base Directories ---
LAB_GROUP_DIR=/path/to/GROUP/ # lab's GROUP folder on HPC cluster
RAW_SEQUENCING_DATA_DIR=/path/to/nanopore_seq_PAIP1/ # where the raw nanopore sequencing .pod5 data is stored
MAIN_PROJECT_DIR=${LAB_GROUP_DIR}ONT_seq_PAIP1/ # Project-dedicated directory under GROUP folder

HUMAN_ANNOTATION_DIR=${LAB_GROUP_DIR}Genomes/homo_sapiens/ # Directory containing fasta and .gtf files for human
DROSOPHILA_ANNOTATION_DIR=${LAB_GROUP_DIR}Genomes/drosophila/ # Directory containing fasta and .gtf files for Drosophila

# --- Shared Project Subdirectories ---
SHARED_PROJECT_DIR=${MAIN_PROJECT_DIR} # technical, the root folder where we put the processing and analysis results
TEMP_DIR=${SHARED_PROJECT_DIR}temp_dir/ # directory reserved for temporary and intermediate files
SLURM_DIR=${TEMP_DIR}slurm/ # directory reserved for SLURM log and out files, but may not necessarily be used by snakemake/nextflow runs
SLURM_SCRIPTS_DIR=${SHARED_PROJECT_DIR}scripts/ # directory reserved for custom R or python or bash scripts useful for analysis
FIGURES_DIR=${SHARED_PROJECT_DIR}figures/ # here the figures generated during analysis, should be stored
TABLES_DIR=${SHARED_PROJECT_DIR}tables/ # here the tables (e.g. .tsv) generated during analysis, should be stored

FASTQ_DIR=${SHARED_PROJECT_DIR}input_fastq/ # reserved for input fastq files, if relevant
IGV_DIR=${SHARED_PROJECT_DIR}IGV/ # reserved for IGV .xml session files
METADATA_DIR=${SHARED_PROJECT_DIR}metadata/ # reserved sample metadata files
EXTMATERIALS_DIR=${SHARED_PROJECT_DIR}ext_materials/ # reserved for external materials, e.g. proteomics, SLAM-seq etc
WF_RUNS_DIR=${SHARED_PROJECT_DIR}wf_runs/ # reserved for outputs of workflow runs

# --- Nanopore-related directories
POD5_DIR=${SHARED_PROJECT_DIR}input_pod5/ # here the .pod5 files are copied (or sym-linked, if relevant) to be used as input for nanoflowz
DORADO_MODELS_DIR=${SHARED_PROJECT_DIR}dorado/basecalling_models/ # here dorado models from Dorado github are downloaded, to be used in nanoflowz
NANOFLOWZ_DIR=/scicore/home/zavolan/mirono0000/libs/nanoflowz/ # actual directory where nanoflowz was installed from github

# --- Genome Annotation Files ---
HUMAN_GENOME_FILE=${HUMAN_ANNOTATION_DIR}GRCh38.primary_assembly.genome.fa
HUMAN_CHROM_SIZES_FILE=${HUMAN_ANNOTATION_DIR}hg38.chrom.sizes
HUMAN_ANNOTATION_FILE=${HUMAN_ANNOTATION_DIR}hg38_v42/gencode.v42.annotation.gtf
HUMAN_BASIC_ANNOTATION_FILE=${HUMAN_ANNOTATION_DIR}hg38_v42/gencode.v42.basic.annotation.gtf
HUMAN_POLYASITE_ATLAS=${HUMAN_ANNOTATION_DIR}hg38_v42/atlas.clusters.3.0.GRCh38.GENCODE_42.bed.gz

DROSOPHILA_GENOME_FILE=${DROSOPHILA_ANNOTATION_DIR}Drosophila_melanogaster.BDGP6.54.dna.toplevel.fa
DROSOPHILA_ANNOTATION_FILE=${DROSOPHILA_ANNOTATION_DIR}Drosophila_melanogaster.BDGP6.54.115.gtf

# --- Nanopore-related files
DORADO_EXECUTOR=$HOME/libs/dorado-1.4.0-linux-x64/bin/dorado # put here the path to dorado executor that you've installed