PreSeCoLM (Predicting Sensitive Concepts in Language Models)

This repository includes the implementation of some experiments in the scope of predicting sensitive concepts (protected attributes such as ethnicity or gender) in language models to enhance the models interpretability. It includes the code to reproduce the papers:

Sarah Schröder, Alexander Schulz and Barbara Hammer. "Evaluating Concept Discovery Methods for Sensitive Attributes in Language Models". Accepted at ESANN 2025.
Sarah Schröder, Valerie Vaquet and Barbara Hammer. "Linearity of Sensitive Concepts in Language Models". Submitted to ESANN 2026.

Installation

Create and activate conda environment:

conda env create -f env.yml
conda activate presecolm

Install our Wrapper for Huggingface Embeddings:

git clone https://github.com/UBI-AGML-NLP/Embeddings.git
cd Embeddings/
pip install .

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
data_loader		data_loader
examples		examples
experiments		experiments
models		models
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
env.yml		env.yml
get_openai_embeddings.ipynb		get_openai_embeddings.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PreSeCoLM (Predicting Sensitive Concepts in Language Models)

Installation

Experiment Details

ESANN 2025 Experiments

ESANN 2026 Experiments

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

License

HammerLabML/PreSeCoLM

Folders and files

Latest commit

History

Repository files navigation

PreSeCoLM (Predicting Sensitive Concepts in Language Models)

Installation

Experiment Details

ESANN 2025 Experiments

ESANN 2026 Experiments

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages