
从数据中学习,或者从演示中学习($\text{learn from demostration}$)包含丰富的门类,例如以模仿学习为代表的从专家数据中学习策略、以逆强化学习(
inverse reinforcement learning,IRL
为代表的从人类数据中学习奖励函数和以及从人类反馈中学习($\text{reinforcement learning from huamn feedback,RLHF}$)为代表的从人类标注的数据中学习奖励模型来进行微调($\text{fine-tune}$)。
这里的英文human写错了