rbao2018

BaoRong rbao2018

Achievements

self_ref_feedback self_ref_feedback Public

Code for Improving Large Language Model Alignment from Self-Reference Model Feedback

Python 7
slime slime Public

Forked from THUDM/slime

slime is a LLM post-training framework aiming at scaling RL.

Python
sgl-project/sglang sgl-project/sglang Public

SGLang is a high-performance serving framework for large language models and multimodal models.

Python 24.2k 4.7k
verl-project/verl verl-project/verl Public

verl: Volcano Engine Reinforcement Learning for LLMs

Python 19.7k 3.4k
QCT QCT Public

Quantitative Strategy Trading in Cryptocurrencies

Python