Genomic Quixer: Quantum Next-Token Prediction for Genomics

This project implements a Quantum Transformer (Quixer) for genomic sequence modeling (Next-Base Prediction). It compares the performance of a quantum-enhanced attention mechanism (LCU + QSVT) against a classical transformer baseline on genomic data.

🧬 Pipeline Overview

The pipeline focuses on K-mer Tokenization and Next-Token Prediction, treating DNA sequences like language.

graph TD
    A[Genomic FASTA] -->|preprocess.py| B(K-mer Tokenization)
    B --> C[Tokenized Dataset]
    C --> D{Model Training}
    D -->|model_type='quixer'| E[Quixer Quantum Transformer]
    D -->|model_type='classical'| F[Classical Transformer Baseline]
    E --> G[Evaluation Metrics]
    F --> G

📂 Project Structure

The codebase is organized as a modular Python package genomic_quixer:

.
├── genomic_quixer/             # Main Package
│   ├── data/
│   │   ├── dataset.py          # Memory-efficient Dataset class
│   │   └── preprocess.py       # K-mer tokenization logic
│   ├── models/
│   │   ├── quixer.py           # Quantum Transformer (Ansatz 14 + LCU/QSVT)
│   │   └── classical.py        # Classical Transformer Baseline
│   └── training/
│       └── trainer.py          # Training loops and visualization
├── train.py                    # Main entry point for training
├── preprocess.py               # Entry point for data generation
└── legacy_lambeq/              # Archive of previous Lambeq experiments

🚀 Quick Start

1. Preprocess Data

Convert raw FASTA sequences into K-mer tokens.

# Default: 4-mer tokenization (Vocab size = 256)
python preprocess.py --k_mer 4

2. Train Quixer (Quantum Model)

Train the quantum transformer model.

python train.py \
    --model_type quixer \
    --epochs 10 \
    --batch_size 256 \
    --window_size 128 \
    --qubits 6

3. Train Classical Baseline

Train a classical transformer with comparable parameters.

python train.py \
    --model_type classical \
    --epochs 10 \
    --batch_size 256 \
    --window_size 128

📊 Key Features

Quixer Model: Uses TorchQuantum to simulate parameterized quantum circuits (Ansatz 14) with Linear Combination of Unitaries (LCU) and Quantum Singular Value Transformation (QSVT).
Efficient Data Loading: Uses memory mapping (mmap) to handle large genomic datasets without loading everything into RAM.
Direct Comparison: Unified training script allowing side-by-side comparison of Quantum vs Classical approaches on the same data splits.

🛠 Dependencies

torch
torchquantum
numpy
tqdm
matplotlib

Note: This pipeline replaces the previous Lambeq-based approach. Old files can be found in legacy_lambeq/.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
GRCh38_genomic_dataset		GRCh38_genomic_dataset
Quixer		Quixer
Quixer_main		Quixer_main
Quixer_tmp		Quixer_tmp
genomic_quixer		genomic_quixer
hackathon_submission_files		hackathon_submission_files
legacy_lambeq		legacy_lambeq
processed_data		processed_data
quantized_embeddings		quantized_embeddings
results		results
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CHANGES_SUMMARY.md		CHANGES_SUMMARY.md
DIAGNOSIS.md		DIAGNOSIS.md
GENOMIC_QUIXER_GUIDE.md		GENOMIC_QUIXER_GUIDE.md
GITHUB_PUSH_GUIDE.md		GITHUB_PUSH_GUIDE.md
GITHUB_PUSH_SUMMARY.md		GITHUB_PUSH_SUMMARY.md
GITHUB_READY.txt		GITHUB_READY.txt
GIT_COMMANDS.sh		GIT_COMMANDS.sh
GPU_QUICK_START.md		GPU_QUICK_START.md
NEXT_TOKEN_PREDICTION_GUIDE.md		NEXT_TOKEN_PREDICTION_GUIDE.md
PIPELINE_VERIFICATION.md		PIPELINE_VERIFICATION.md
PUSH_CHECKLIST.md		PUSH_CHECKLIST.md
PUSH_TO_GITHUB.sh		PUSH_TO_GITHUB.sh
QMCMC.py		QMCMC.py
QUICK_START.md		QUICK_START.md
QUIXER_HYPERPARAMETERS.md		QUIXER_HYPERPARAMETERS.md
README.md		README.md
README_AUTOREGRESSIVE.md		README_AUTOREGRESSIVE.md
READY_FOR_GITHUB.md		READY_FOR_GITHUB.md
build_genomic_dataset.py		build_genomic_dataset.py
check_setup.py		check_setup.py
diagnose_data.py		diagnose_data.py
generate_pitch_assets.py		generate_pitch_assets.py
inference_nextbase.py		inference_nextbase.py
inference_nextbase_real.py		inference_nextbase_real.py
prepare_autoregressive_data.py		prepare_autoregressive_data.py
prepare_classical_benchmarks.py		prepare_classical_benchmarks.py
prepare_markov_chain_data.py		prepare_markov_chain_data.py
preprocess.py		preprocess.py
preprocess_genomics.py		preprocess_genomics.py
quixer_wrapper.py		quixer_wrapper.py
run_classical_prep.sh		run_classical_prep.sh
run_genomics_quixer.sh		run_genomics_quixer.sh
run_quixer_training.sh		run_quixer_training.sh
train.py		train.py
train_baseline_and_compare.py		train_baseline_and_compare.py
train_quixer_chunks.py		train_quixer_chunks.py
train_quixer_genomics.py		train_quixer_genomics.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Genomic Quixer: Quantum Next-Token Prediction for Genomics

🧬 Pipeline Overview

📂 Project Structure

🚀 Quick Start

1. Preprocess Data

2. Train Quixer (Quantum Model)

3. Train Classical Baseline

📊 Key Features

🛠 Dependencies

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

Quantum-Buddies/bradford_hackathon_gene_sequencing

Folders and files

Latest commit

History

Repository files navigation

Genomic Quixer: Quantum Next-Token Prediction for Genomics

🧬 Pipeline Overview

📂 Project Structure

🚀 Quick Start

1. Preprocess Data

2. Train Quixer (Quantum Model)

3. Train Classical Baseline

📊 Key Features

🛠 Dependencies

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages