nf-core
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/Homo_sapiens.GRCh38.111_chr19_22.lean.gtf.gz‎
1.89 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/Homo_sapiens.GRCh38.111_chr19_22.lean.gtf.gz‎
1.89 MB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/Homo_sapiens.GRCh38_chr19_22.exon_masked.fa.gz‎
4.27 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/Homo_sapiens.GRCh38_chr19_22.exon_masked.fa.gz‎
4.27 MB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/README.md‎
Lines changed: 38 additions & 0 deletions b/‎data/genomics/homo_sapiens/riboseq_expression/price/README.md‎
Lines changed: 38 additions & 0 deletions
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780885.chr19_22.ds50.bam‎
2.57 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780885.chr19_22.ds50.bam‎
2.57 MB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780885.chr19_22.ds50.bam.bai‎
102 KB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780885.chr19_22.ds50.bam.bai‎
102 KB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780886.chr19_22.ds50.bam‎
2.3 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780886.chr19_22.ds50.bam‎
2.3 MB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780886.chr19_22.ds50.bam.bai‎
101 KB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780886.chr19_22.ds50.bam.bai‎
101 KB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780887.chr19_22.ds50.bam‎
2.31 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780887.chr19_22.ds50.bam‎
2.31 MB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780887.chr19_22.ds50.bam.bai‎
100 KB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780887.chr19_22.ds50.bam.bai‎
100 KB
diff --git a/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780888.chr19_22.ds50.bam‎
1.87 MB b/‎data/genomics/homo_sapiens/riboseq_expression/price/bams/SRX11780888.chr19_22.ds50.bam‎
1.87 MB
@@ -0,0 +1,38 @@
+# Test data for `gedi/price`
+
+A cohort of six Ribo-seq samples covering chr19 + chr22 (Ensembl GRCh38), trimmed and downsampled so that PRICE's expectation-maximisation converges and produces a non-empty `orfs.tsv` while keeping fixtures small enough for CI.
+
+## Why two chromosomes plus a cohort?
+
+PRICE's ORF inference fails (`/ by zero` in `NoiseModel`) when fewer than ~500 candidate ORFs feed the noise model. The existing chr20 fixture yields ~235 candidates from a 2-sample cohort. chr19 alone with all six samples reaches ~465 - still too sparse. chr19 + chr22 with all six samples reaches ~660 candidates, which is sufficient for the EM and gives ~250 ORFs after multiple-testing correction.
+
+## Files
+
+| File | Size | Description |
+|---|---|---|
+| `Homo_sapiens.GRCh38_chr19_22.exon_masked.fa.gz` | 4.3 MB | chr19+chr22 from Ensembl GRCh38 primary assembly, intergenic regions hard-masked to `N`. Reduces fixture size by ~85% while preserving every exon (gedi/PRICE only needs the codon sequences under reads). |
+| `Homo_sapiens.GRCh38.111_chr19_22.lean.gtf.gz` | 1.9 MB | chr19+chr22 from Ensembl 111 GTF, with attribute column trimmed to `gene_id`, `transcript_id`, `gene_biotype`, `gene_name`, `transcript_biotype`. All feature types retained. |
+| `bams/SRX1178088{5,6,7,8,9}.chr19_22.ds50.bam` | 1.6-2.6 MB each | Six Ribo-seq samples from GSE182201 (SRA SRR1548078{8,9,90,91,92,93}), STAR-aligned to GRCh38, filtered to chr19+chr22, downsampled to 50% of reads. |
+| `bams/SRX11780890.chr19_22.ds50.bam` | 1.3 MB | (sixth sample) |
+| `bams/*.bai` | <105 KB each | BAM indexes. |
+
+Total: ~22 MB across 14 files.
+
+## How they were derived
+
+1. Source BAMs taken from a successful test_full run of nf-core/riboseq (commit `c4cb19dc`) on Seqera Platform stage.
+2. Each `*.genome.sorted.bam` filtered to chr19+chr22 with `samtools view -bh -F 256 <bam> 19 22`.
+3. Downsampled to 50% with `samtools view -bh -s 1.5`.
+4. FASTA built from `Homo_sapiens.GRCh38.dna.chromosome.{19,22}.fa.gz` (Ensembl 111), then N-masked outside exon intervals from the chr19+chr22 GTF (no flank).
+5. GTF subset to chr19+chr22 from `Homo_sapiens.GRCh38.111.chr.gtf.gz`, then stripped of non-essential attributes.
+
+## Verified
+
+Running `gedi -e Price -reads <cit> -genomic <oml> -prefix test` on this cohort yields:
+
+```
+INFO Found 563 ORFs
+INFO Remaining after multiple testing correction: 250 ORFs
+```
+
+Used by `modules/nf-core/gedi/price/tests/main.nf.test`.