Skip to content

ch01 1.3.2中错别字 #27

@speoki

Description

@speoki
Image 从数据中学习,或者从演示中学习($\text{learn from demostration}$)包含丰富的门类,例如以模仿学习为代表的从专家数据中学习策略、以逆强化学习( inverse reinforcement learning,IRL 为代表的从人类数据中学习奖励函数和以及从人类反馈中学习($\text{reinforcement learning from huamn feedback,RLHF}$)为代表的从人类标注的数据中学习奖励模型来进行微调($\text{fine-tune}$)。

这里的英文human写错了

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions