CLIO for PubMed: Hierarchical Clustering of Scientific Abstracts

This project implements the CLIO hierarchical clustering system for PubMed abstracts, based on the approach described in the CLIO paper. It automatically organizes scientific literature about artificial intelligence into a meaningful hierarchical structure.

Features

Automatic Abstract Collection: Fetches AI-related abstracts from PubMed
Advanced Embeddings: Uses Sentence-BERT (all-mpnet-base-v2) for semantic understanding
Smart Clustering: K-means with automatic optimization
AI-Powered Naming: Claude generates descriptive cluster names
Hierarchical Organization: Multi-level clustering for better organization
Multiple Output Formats: Text, JSON, and CSV outputs

Quick Start

1. Setup Environment

# Clone the repository
cd clio

# Create and activate virtual environment
python3 -m venv venv
source venv/bin/activate

# Install dependencies
pip install -r requirements.txt

2. Configure API Keys

Create a .env file:

ANTHROPIC_API_KEY=your_claude_api_key_here
PUBMED_EMAIL=your_email@example.com
CLAUDE_MODEL=claude-3-haiku-20240307

3. Run the Pipeline

# Test with 20 abstracts
python src/run_clio_pipeline.py --max-abstracts 20

# Production run with 1000 abstracts
python src/run_clio_pipeline.py --max-abstracts 1000 --hierarchy-levels 3

How It Works

Data Collection: Queries PubMed for AI-related abstracts
Embedding: Converts abstracts to 768-dimensional vectors
Clustering: Groups similar abstracts using k-means
Naming: Claude analyzes clusters and generates names
Hierarchy: Builds multi-level structure
Output: Generates human-readable and machine-readable formats

Example Output

TOP LEVEL (3 clusters):

▪ Artificial Intelligence in Medical Imaging and Diagnostics
  This cluster focuses on AI applications in radiology...
  ▪ Deep Learning for Medical Images
    CNNs for X-ray and MRI analysis...
  ▪ AI in Cancer Detection
    Early cancer diagnosis using ML...

▪ AI Applications in Drug Discovery
  AI in pharmaceutical research...
  ▪ Molecular Design with ML
    Drug molecule optimization...

Command Line Options

--max-abstracts: Number of abstracts to process (default: 100)
--min-cluster-size: Minimum cluster size (default: 5)
--hierarchy-levels: Hierarchy depth (default: 3)
--top-clusters: Top-level clusters (default: 5)
--output-dir: Output directory (default: output)

Project Structure

clio/
├── src/
│   ├── pubmed_collector.py    # PubMed API integration
│   ├── embedder.py            # Sentence-BERT embeddings
│   ├── clusterer.py           # K-means clustering
│   ├── cluster_namer.py       # Claude API naming
│   ├── hierarchizer.py        # Hierarchy building
│   ├── output_formatter.py    # Output generation
│   └── run_clio_pipeline.py   # Main pipeline
├── output/                    # Generated outputs
├── requirements.txt           # Python dependencies
├── .env                       # API keys (create this)
└── README.md                  # This file

Cost Estimation

Using Claude 3 Haiku:

100 abstracts: ~$0.10
1,000 abstracts: ~$1.00
10,000 abstracts: ~$10.00

Citation

Based on the CLIO paper methodology. This implementation focuses on PubMed abstracts without privacy mechanisms (as abstracts are public data).

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
src		src
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
README.md		README.md
clio_paper.md		clio_paper.md
create_complete_hierarchy.py		create_complete_hierarchy.py
debug_embeddings.py		debug_embeddings.py
debug_kmeans.py		debug_kmeans.py
export_structured_json.py		export_structured_json.py
json_to_text.py		json_to_text.py
pubmed_clio_implementation_plan.md		pubmed_clio_implementation_plan.md
requirements.txt		requirements.txt
show_full_hierarchy.py		show_full_hierarchy.py
visualize_hierarchy.py		visualize_hierarchy.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CLIO for PubMed: Hierarchical Clustering of Scientific Abstracts

Features

Quick Start

1. Setup Environment

2. Configure API Keys

3. Run the Pipeline

How It Works

Example Output

Command Line Options

Project Structure

Cost Estimation

Citation

License

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CLIO for PubMed: Hierarchical Clustering of Scientific Abstracts

Features

Quick Start

1. Setup Environment

2. Configure API Keys

3. Run the Pipeline

How It Works

Example Output

Command Line Options

Project Structure

Cost Estimation

Citation

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages