what data should I use in step 3

I have a SFTed general model M. Suppose I used all data A to train it, and I additionally trained a reward model using all data B. When I continue PPO training M in step 3, can I use data A or data B? Or should I use a completely new dataset C?