Open-On-Policy-Distillation/experiments.md at main · ulab-uiuc/Open-On-Policy-Distillation · GitHub

2 lines (2 loc) · 454 Bytes

使得ref model有两个: 一个是teacher ref需要定时更新权重(或者如果是ema则应该不用)且prompt里面有priviledge information，另一个是ppo/grpo里面的ref model，这个是固定的权重，prompt和student的prompt一样
测试不同的priviledge information的影响。有两种:第一种是每个问题有自己的priviledge information，第二种是所有问题的priviledge information相同(prompt internalization)