Optimize shared memory usage, clean up legacy quantization, and remove unused modules by JiuChen0 · Pull Request #34 · ai-decentralized/BloomBee

JiuChen0 · 2025-11-12T12:35:35Z

Description

Optimized shared memory usage
- Reduced the peak /dev/shm usage during warmup and inference, improving stability on servers with limited shared memory (e.g., 64 MB /dev/shm).
Cleaned up legacy quantization from Petals
- Removed redundant quantization logic inherited from Petals’ standard Transformer implementation.
- Preserved and verified the FlexGen 4-bit quantization, which now works correctly for weight compression.
Removed FlexLLMGen folder
- Deleted this unintegrated and unused module to simplify the repository structure.
Removed --quant_type CLI argument
- Quantization configuration should now be enabled directly in server.py, improving code clarity and reducing CLI complexity.
Removed unnecessary debug outputs
- Cleaned up verbose logs for better readability and reduced runtime overhead.

- Add --batch_size CLI argument for parallel sequence processing - Add conditional CUDA stream creation for CPU-only mode - Add device-aware ExecutionEnv and Policy resource distribution - Fix MPS compatibility on macOS

…ve unused modules (ai-decentralized#34) * Add batch inference support and CPU compatibility - Add --batch_size CLI argument for parallel sequence processing - Add conditional CUDA stream creation for CPU-only mode - Add device-aware ExecutionEnv and Policy resource distribution - Fix MPS compatibility on macOS * fix hardcode of model loading and support batch size * Resolving dependency conflicts * docs: refine README setup and usage sections for clarity and correctness * Add batch size related updates * delete ddebug output * delete .id files * fix max token size problem * add prompt * Reduce /dev/shm peak usage during warmup/prefill stage * delete dead code * chore: comment out unused compare_tensors function * delete bitsandbytes quant * support flexgen 4bit quant * clean debug output for server id * add effective throughput * clean up unnecessary files --------- Co-authored-by: Danny Willow Liu <dannywillowliu@uchicago.edu> Co-authored-by: root <root@investorairig80.maas>

dannywillowliu-uchi and others added 18 commits October 15, 2025 22:43

Add batch inference support and CPU compatibility

6192e15

- Add --batch_size CLI argument for parallel sequence processing - Add conditional CUDA stream creation for CPU-only mode - Add device-aware ExecutionEnv and Policy resource distribution - Fix MPS compatibility on macOS

fix hardcode of model loading and support batch size

48fbd69

Resolving dependency conflicts

3d3ff5b

docs: refine README setup and usage sections for clarity and correctness

9fafef5

Add batch size related updates

0b5b97a

delete ddebug output

4ad4882

delete .id files

136054a

fix max token size problem

b717a53

add prompt

5d26e9b

Reduce /dev/shm peak usage during warmup/prefill stage

ee81d94

delete dead code

8587226

chore: comment out unused compare_tensors function

c923dfb

delete bitsandbytes quant

8689cc9

support flexgen 4bit quant

9537383

clean debug output for server id

8423719

add effective throughput

8870508

clean up unnecessary files

681be3c

Merge branch 'main' into dev_shm

78a04b3

HaibaraAiChan approved these changes Nov 13, 2025

View reviewed changes

HaibaraAiChan merged commit 241bbc3 into ai-decentralized:main Nov 13, 2025

JiuChen0 deleted the dev_shm branch November 21, 2025 01:30

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize shared memory usage, clean up legacy quantization, and remove unused modules#34

Optimize shared memory usage, clean up legacy quantization, and remove unused modules#34
HaibaraAiChan merged 18 commits intoai-decentralized:mainfrom
JiuChen0:dev_shm

JiuChen0 commented Nov 12, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

JiuChen0 commented Nov 12, 2025

Description

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants