Plasma Proteomics Differential Analysis & GSEA Pipeline

Overview

This repository contains a reproducible workflow for analyzing plasma proteomics data using:

Linear modeling (limma) for differential protein expression
Gene Set Enrichment Analysis (GSEA, preranked via gseapy)

The pipeline is designed for multi-cohort clinical proteomics data with repeated measures and confounding variables.

🧬 Data Description

1. `sample_info.tsv`

Metadata table describing each sample.

Column	Description
Sample ID	Patient identifier (prefix indicates country: SWE, IRE, ITA, NOR)
TP	Timepoint (T0, T1, T2)
Sex	Biological sex (M / F)
CF ID	Unique sample identifier (used to map quantification data)
cancer_type	Cancer type
toxicity	Toxicity status (yes / no)
country	Country of origin
...	Additional clinical covariates

2. `meta.tsv`

Mapping table linking CF IDs to raw file names.

Column	Description
Sample ID	CF ID
R.FileName	Identifier used in quantification matrix

3. `plasma_prot_quant.tsv`

Protein quantification matrix.

Column	Description
PG.Genes	Protein / gene annotation
Other columns	Sample-specific intensities (mapped via `meta.tsv`)

⚙️ Data Processing Workflow

1. Column Mapping

Match quantification columns to CF IDs using meta.tsv
Rename columns to CF IDs

2. Gene Name Cleaning

Multi-annotation entries (e.g. ARHGEF5;ARHGEF5;...) are simplified to:

3. Expression Matrix Construction

Rows → samples (CF IDs)
Columns → proteins
Values → normalized intensities

4. Preprocessing

Remove duplicated samples
Convert to numeric
Log2 transform

📊 Differential Expression Analysis (limma)

We use the limma framework for linear modeling with empirical Bayes moderation.

Key Features

Supports flexible contrasts:
Sex: M vs F
TP: T2 vs T0
toxicity: yes vs no
Adjusts for confounders:
country
cancer_type
TP
toxicity

Example Usage

results <- limma_differential(
expr = expr_matrix,
sample_info = sample_info,
contrast_feature = "Sex",
contrast_direction = "M_vs_F",
confounding_factors = c("country", "cancer_type", "TP", "toxicity")
)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
input		input
output		output
raw_data		raw_data
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
exploration.ipynb		exploration.ipynb
gsea.ipynb		gsea.ipynb
join.ipynb		join.ipynb
limma.ipynb		limma.ipynb
limma_volcano.ipynb		limma_volcano.ipynb
ols.ipynb		ols.ipynb
survival.ipynb		survival.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Plasma Proteomics Differential Analysis & GSEA Pipeline

Overview

🧬 Data Description

1. `sample_info.tsv`

2. `meta.tsv`

3. `plasma_prot_quant.tsv`

⚙️ Data Processing Workflow

1. Column Mapping

2. Gene Name Cleaning

3. Expression Matrix Construction

4. Preprocessing

📊 Differential Expression Analysis (limma)

Key Features

Example Usage

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Plasma Proteomics Differential Analysis & GSEA Pipeline

Overview

🧬 Data Description

1. sample_info.tsv

2. meta.tsv

3. plasma_prot_quant.tsv

⚙️ Data Processing Workflow

1. Column Mapping

2. Gene Name Cleaning

3. Expression Matrix Construction

4. Preprocessing

📊 Differential Expression Analysis (limma)

Key Features

Example Usage

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. `sample_info.tsv`

2. `meta.tsv`

3. `plasma_prot_quant.tsv`

Packages