GitHub - gitsofaryan/akave-pytorch-o3: A decentralized ML pipeline that streams data, trains models, and stores immutable checkpoints using Akave O3.

PyTorch + Akave O3 Integration

Decentralized ML training pipeline — stream datasets, train models, and store CID-based immutable checkpoints on Akave O3 storage.

🎯 At a Glance

Component	Purpose
O3Client	Thin wrapper around `akavesdk` for streaming, range downloads, uploads with CID return
O3Dataset	PyTorch `Dataset` that streams samples from O3 with two-tier caching (LRU + disk)
O3CheckpointManager	CID-versioned checkpoint persistence with lineage tracking and auto-resume
Streamlit Dashboard	GUI for dataset management, training, checkpoint versioning with real-time logs
MNIST Example	End-to-end training: `examples/train_mnist.py`

✨ Key Features

✅ Content-addressed versioning: Every checkpoint gets a unique CID (immutable hash)
✅ Auto-resume: Detect latest checkpoint, continue from that epoch
✅ Real-time logs: Monitor loss, accuracy, batch progress during training
✅ Rate-limit resilience: Exponential backoff + retry logic for large uploads
✅ Multiprocessing-safe: Per-worker O3Client instances in DataLoader
✅ Local + O3 storage: Train locally, upload to O3 automatically

🚀 Quick Start

1. Setup (5 minutes)

# Create virtual environment
python -m venv .venv
.venv\Scripts\activate  # Windows: PowerShell
# source .venv/bin/activate  # macOS/Linux

# Install dependencies
pip install -r requirements.txt
pip install -e .

# Set your private key
echo AKAVE_PRIVATE_KEY="your_64_hex_chars" > .env

2. Option A: CLI Training (fastest)

python examples/train_mnist.py \
  --o3-data-bucket mnist-data \
  --o3-checkpoint-bucket mnist-checkpoints \
  --epochs 5

2. Option B: Streamlit Dashboard (recommended)

streamlit run app.py
# Opens at http://localhost:8501

Then:

Go to Settings → enter AKAVE_PRIVATE_KEY (or paste from .env)
Go to Dashboard → select a dataset
Click ▶ Start Training
Watch real-time logs, loss, accuracy
View checkpoints + CIDs on Checkpoints page

📦 Core Dependencies

torch>=2.0.0 — PyTorch
akavesdk — Akave O3 SDK (from Git)
tenacity>=8.2.0 — Retry logic
streamlit>=1.0.0 — Dashboard (optional)
plotly — Charts (optional)

🔑 Configuration

Setting AKAVE_PRIVATE_KEY

The library requires your 64-character hex private key for O3 authentication.

Option 1: Environment file (recommended)

# Create .env file
echo AKAVE_PRIVATE_KEY="your_64_hex_chars" > .env

# The library auto-loads from .env
python examples/train_mnist.py ...

Option 2: Export environment variable

# macOS/Linux
export AKAVE_PRIVATE_KEY="your_64_hex_chars"

# Windows PowerShell
$env:AKAVE_PRIVATE_KEY = "your_64_hex_chars"

Option 3: Direct initialization

from pytorch_o3 import O3Client
client = O3Client(private_key="your_64_hex_chars")

⚠️ Important: Missing key → O3AuthError. Check setup before training.

📚 Usage Guides

CLI: Train MNIST with O3

python examples/train_mnist.py \
  --o3-data-bucket mnist-data \
  --o3-train-prefix mnist/train/ \
  --o3-test-prefix mnist/test/ \
  --o3-checkpoint-bucket mnist-checkpoints \
  --epochs 5 \
  --batch-size 32 \
  --lr 0.001

Key Arguments:

--o3-data-bucket (required) — Bucket with training/test objects
--o3-train-prefix (default: mnist/train/) — Training data location
--o3-test-prefix (default: mnist/test/) — Test data location
--o3-checkpoint-bucket (required) — Where to store checkpoints
--epochs, --batch-size, --lr — Standard training controls

What happens each epoch:

Stream batches from O3 via O3Dataset
Train model, evaluate on test set
Save checkpoint (.pt + metadata JSON) to O3
Log CID for later reference
Auto-resume persists via CID-based lineage

GUI: Streamlit Dashboard

streamlit run app.py

Pages:

Page	Purpose
Overview	Quick start, architecture diagram, key concepts
Dashboard	Dataset selection, training config, real-time progress
Datasets	Browse bundled datasets, preview tensors
Training	Train job status, live logs, checkpoint summary
Checkpoints	All checkpoints, CID lineage graph, resume options
Buckets	View all O3 buckets, create new buckets, manage storage
API Docs	API reference for O3Client, O3Dataset, O3CheckpointManager
Settings	Connect wallet, configure O3 connection parameters

Python: Direct API

from pytorch_o3 import O3Client, O3Dataset, O3CheckpointManager
import torch
from torch.utils.data import DataLoader

# 1. Connect to O3
client = O3Client()  # uses AKAVE_PRIVATE_KEY

# 2. Stream data
object_keys = ["sample_0.pt", "sample_1.pt", 
...]
dataset = O3Dataset(client, "data-bucket", object_keys, 
                      transform=lambda b: torch.load(BytesIO(b)))
loader = DataLoader(dataset, batch_size=32)

# 3. Train model
model = MyModel()
for epoch in range(5):
    for batch_x, batch_y in loader:
        # your training loop
        pass
    
    # 4. Save checkpoint with CID versioning
    ckpt_mgr = O3CheckpointManager(client, "checkpoint-bucket")
    cid = ckpt_mgr.save_checkpoint(
        state_dict=model.state_dict(),
        epoch=epoch,
        optimizer_state=optimizer.state_dict(),
        metrics={"loss": 0.123, "acc": 0.95}
    )
    print(f"Epoch {epoch} → CID: {cid}")

Data Format

Expected object format in O3 buckets:

# Option 1: Dict with {"images": tensor, "labels": tensor}
torch.save({
    "images": torch.randn(1000, 28, 28).uint8(),  # Shape: (N, H, W) or (N, C, H, W)
    "labels": torch.randint(0, 10, (1000,))
}, "bucket_key.pt")

# Option 2: Tuple
torch.save((images_tensor, labels_tensor), "key.pt")

Rate Limiting

Large checkpoint uploads may hit O3/node rate limits (gRPC RESOURCE_EXHAUSTED).

Automatic handling:

Retries up to 5 times with 2, 4, 6, 8 minute exponential backoff
On "file already exists": deletes orphaned key and retries
Training resumes from latest checkpoint on re-run

If limits persist: Wait several minutes and re-run, or reduce checkpoint frequency.

---\n\n## 📚 API Reference\n\n### O3Client — Connect & Stream\n\npython\nfrom pytorch_o3 import O3Client\n\nclient = O3Client() # uses AKAVE_PRIVATE_KEY env var\nclient = O3Client(private_key=\"...\", ipc_address=\"connect.akave.ai:5500\")\n\n\n| Method | Purpose |\n|--------|----------|\n| list_buckets() | List all available buckets |\n| list_objects(bucket, prefix=\"\", limit=1000) | List objects in a bucket |\n| get_object_info(bucket, key) | Get object metadata (size, etc.) |\n| download_object(bucket, key) | Download full object → bytes |\n| download_object_range(bucket, key, start, end) | Download byte range |\n| upload_object(bucket, key, data: bytes) → CID | Upload object, get back CID |\n| close() | Close SDK resources |\n\nErrors: O3AuthError (auth issues), NotImplementedError (missing SDK features)\n\n### O3Dataset — Stream to PyTorch\n\npython\nfrom pytorch_o3 import O3Dataset\nfrom torch.utils.data import DataLoader\n\ndataset = O3Dataset(\n client=client,\n bucket_name=\"training-data\",\n object_keys=[\"sample_0.pt\", \"sample_1.pt\", ...],\n chunk_size=1024 * 1024, # 1 MB chunks\n cache_size=100, # LRU memory cache\n transform=None, # Optional: bytes → sample\n cache_dir=\"/scratch/o3-cache\" # Optional: persistent disk cache\n)\n\nloader = DataLoader(dataset, batch_size=32, num_workers=4)\nfor batch_x, batch_y in loader:\n # batch_x, batch_y automatically streamed from O3\n pass\n\n\nFeatures:\n- Two-tier caching: LRU memory + SHA256-keyed disk cache\n- Per-worker O3Client (multiprocessing-safe)\n- Automatic chunk fetching on demand\n- Configurable chunk size and cache capacity\n\nErrors: ValueError (empty keys, bad chunk_size), RuntimeError (metadata issues)\n\n### O3CheckpointManager — Versioned Snapshots\n\npython\nfrom pytorch_o3.checkpoint import O3CheckpointManager\n\nckpt_mgr = O3CheckpointManager(client, bucket_name=\"checkpoints\")\n\n# Save checkpoint with CID versioning\ncid = ckpt_mgr.save_checkpoint(\n state_dict=model.state_dict(),\n epoch=5,\n optimizer_state=optimizer.state_dict(),\n metrics={\"loss\": 0.123, \"accuracy\": 0.95}\n)\nprint(f\"Checkpoint saved → CID: {cid}\")\n\n# Load latest checkpoint into model\nepoch_to_resume = ckpt_mgr.resume_training(model, optimizer)\nfor epoch in range(epoch_to_resume, total_epochs):\n # continue training from epoch_to_resume\n pass\n\n# List all checkpoints\nall_ckpts = ckpt_mgr.list_checkpoints() # sorted by epoch desc\n\n# Or load specific checkpoint by CID\nckpt_data = ckpt_mgr.load_checkpoint(cid=\"bafy...\")\n\n\n| Method | Returns | Purpose |\n|--------|---------|----------|\n| save_checkpoint(...) | str (CID) | Save state, get content-addressed ID |\n| load_checkpoint(cid=None) | dict | Load by CID or latest if None |\n| list_checkpoints() | list[dict] | All metadata records (epoch desc) |\n| get_latest_metadata() | dict \\| None | Newest checkpoint metadata |\n| get_latest_cid() | str \\| None | Newest checkpoint CID |\n| resume_training(model, optimizer=None) | int (epoch) | Load latest + return resume epoch |\n\nErrors: RuntimeError (CID extraction, metadata parsing), upload errors propagate

🎯 Running Specific Functions

O3Client Functions

List all buckets:

from pytorch_o3 import O3Client

client = O3Client()
buckets = client.list_buckets()
for bucket in buckets:
    print(bucket.name)

List objects in a bucket:

objects = client.list_objects("my-bucket", prefix="models/", limit=100)
for obj in objects:
    print(obj.name)

Get object info (size, metadata):

info = client.get_object_info("my-bucket", "my-model.pt")
print(f"Size: {info.size} bytes")

Download full object:

data = client.download_object("my-bucket", "my-model.pt")
# data is bytes
import torch
model_state = torch.load(BytesIO(data))

Download byte range (streaming):

# Only download bytes 0-1000 (useful for large files)
chunk = client.download_object_range("my-bucket", "dataset.pt", start=0, end=1000)

Upload object and get CID:

import torch
model_bytes = torch.save(model.state_dict(), BytesIO()).getvalue()
file_meta = client.upload_object("my-bucket", "model_v1.pt", model_bytes)
cid = file_meta.root_cid
print(f"Uploaded with CID: {cid}")

O3Dataset Functions

Create dataset with transforms:

from pytorch_o3 import O3Dataset
import torch

def load_tensor(bytes_data):
    """Custom transform: bytes → torch.Tensor"""
    return torch.load(BytesIO(bytes_data))

dataset = O3Dataset(
    client=client,
    bucket_name="training-data",
    object_keys=["sample_0.pt", "sample_1.pt"],
    transform=load_tensor,  # Applied to each sample
    cache_size=50,          # Keep 50 chunks in memory
)

# Access single sample
sample = dataset[0]

# Or use with DataLoader
from torch.utils.data import DataLoader
loader = DataLoader(dataset, batch_size=32, num_workers=2)

Check cache statistics:

stats = dataset.get_cache_stats()
print(f"Memory cache: {stats['memory_cache_size']}/{stats['memory_cache_max']}")
print(f"Disk cache files: {stats['disk_cache_files']}")

O3CheckpointManager Functions

List all checkpoints:

from pytorch_o3 import O3CheckpointManager

ckpt_mgr = O3CheckpointManager(client, "checkpoint-bucket")
all_checkpoints = ckpt_mgr.list_checkpoints()  # sorted by epoch (newest first)
for ckpt in all_checkpoints:
    print(f"Epoch {ckpt['epoch']}: CID={ckpt['root_cid']}, Metrics={ckpt['metrics']}")

Get latest checkpoint info:

latest = ckpt_mgr.get_latest_metadata()
if latest:
    print(f"Latest epoch: {latest['epoch']}")
    print(f"Latest CID: {latest['root_cid']}")
else:
    print("No checkpoints found")

Load specific checkpoint by CID:

cid = "bafy..."  # e.g., from lineage chain
ckpt = ckpt_mgr.load_checkpoint(cid=cid)
model.load_state_dict(ckpt["model_state_dict"])
print(f"Loaded epoch {ckpt['epoch']}")

Resume training (auto-detect latest):

start_epoch = ckpt_mgr.resume_training(model, optimizer)
for epoch in range(start_epoch, total_epochs):
    # Training continues from where it left off
    pass

Get CID lineage chain:

all_ckpts = ckpt_mgr.list_checkpoints()
for ckpt in all_ckpts:
    parent_cid = ckpt.get("parent_cid") or "Genesis"
    print(f"Epoch {ckpt['epoch']}: {ckpt['root_cid'][:16]}... (parent: {parent_cid})")

CLI: Run Specific Examples

Train on MNIST:

python examples/train_mnist.py \
  --o3-data-bucket mnist-data \
  --o3-checkpoint-bucket checkpoints \
  --epochs 5 \
  --batch-size 32

List commands from examples:

python examples/train_mnist.py --help  # Show all CLI options

Run milestone validation demo:

python cli_animated_demo.py  # Validates all 4 GitHub milestones + runs 25 pytest tests

⚠️ Troubleshooting

Issue	Cause	Fix
`O3AuthError: AKAVE_PRIVATE_KEY is missing`	Key not exported	Set `AKAVE_PRIVATE_KEY` env var or create .env file
`RESOURCE_EXHAUSTED` on upload	Rate limiting on large checkpoints	Auto-retries with backoff; wait 2-8 min + re-run
`file already exists` error	Partial upload from crash	Auto-deletes orphaned key and retries
Empty `object_keys` → `ValueError`	No dataset objects provided	Pass list of object keys from a bucket
`RuntimeError` on CID extraction	Upload successful but CID missing	Check SDK version compatibility

Best Practices

✅ DO: Use venv, export AKAVE_PRIVATE_KEY, monitor rate limits, use Streamlit dashboard
❌ DON'T: Share private keys, upload huge checkpoints frequently, assume instant O3 uploads

📦 Project Structure

pytorch-o3/
├── src/pytorch_o3/       # Core library
├── examples/             # Training examples
├── tests/                # Unit tests
├── app.py                # Streamlit dashboard
├── demo_training.py      # CLI demo
└── data/
    ├── samples/          # Bundled datasets
    └── checkpoints/      # Local backups

✅ Tests

python -m pytest tests/ -v  # 25 tests, all passing

🚀 Next Steps

Try CLI: python examples/train_mnist.py --o3-data-bucket mnist-data --o3-checkpoint-bucket mnist-ckpt --epochs 2
Try GUI: streamlit run app.py
Explore API: Read API Reference above
Build custom: Extend O3Dataset, O3CheckpointManager for your use case

📄 License & Architecture

PyTorch + Akave O3 integration for decentralized ML
Built with akavesdk for content-addressed storage
CID-based versioning for immutable checkpoint lineage
Multiprocessing-safe caching for distributed training

For issues, see Troubleshooting above.

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.streamlit		.streamlit
data		data
examples		examples
scripts		scripts
src		src
tests		tests
.env.example		.env.example
.gitignore		.gitignore
FINAL_SUMMARY.md		FINAL_SUMMARY.md
README.md		README.md
app.py		app.py
demo_training.py		demo_training.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PyTorch + Akave O3 Integration

🎯 At a Glance

✨ Key Features

🚀 Quick Start

1. Setup (5 minutes)

2. Option A: CLI Training (fastest)

2. Option B: Streamlit Dashboard (recommended)

📦 Core Dependencies

🔑 Configuration

Setting AKAVE_PRIVATE_KEY

📚 Usage Guides

CLI: Train MNIST with O3

GUI: Streamlit Dashboard

Python: Direct API

Data Format

Rate Limiting

🎯 Running Specific Functions

O3Client Functions

O3Dataset Functions

O3CheckpointManager Functions

CLI: Run Specific Examples

⚠️ Troubleshooting

Best Practices

📦 Project Structure

✅ Tests

🚀 Next Steps

📄 License & Architecture

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

PyTorch + Akave O3 Integration

🎯 At a Glance

✨ Key Features

🚀 Quick Start

1. Setup (5 minutes)

2. Option A: CLI Training (fastest)

2. Option B: Streamlit Dashboard (recommended)

📦 Core Dependencies

🔑 Configuration

Setting AKAVE_PRIVATE_KEY

📚 Usage Guides

CLI: Train MNIST with O3

GUI: Streamlit Dashboard

Python: Direct API

Data Format

Rate Limiting

🎯 Running Specific Functions

O3Client Functions

O3Dataset Functions

O3CheckpointManager Functions

CLI: Run Specific Examples

⚠️ Troubleshooting

Best Practices

📦 Project Structure

✅ Tests

🚀 Next Steps

📄 License & Architecture

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages