[Feature] Fine-tuning with GPRO

### Priority

P1-Stopper

### OS type

N/A

### Hardware type

N/A

### Running nodes

N/A

### Description

Leverage Group Policy Ranking Optimization for more efficient and effective reinforcement learning, producing higher-quality models with less overhead.