麻烦问两个问题,感谢 1 请问loss在预训练的下降情况是怎么样的,各自初始值是多少呢,最终各自收敛到什么情况呢,finetune大概是什么情况呢 2 lr一般和batch关系比较紧密,那请问finetune过程中你们的batch和lr大概多少呢