Name	Name	Last commit message	Last commit date
parent directory ..
configs	configs
README.md	README.md
__init__.py	__init__.py
model.py	model.py
run.py	run.py

Name

Last commit message

Last commit date

Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO) is a training method for fine-tuning language models using preference data — pairs of responses labeled as preferred vs rejected — without requiring reinforcement learning or a separate reward model. DPO was introduced in Rafailov et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model.

For more information on using our DPO implementation, visit its model page in our documentation.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Direct Preference Optimization (DPO)

FilesExpand file tree

dpo

Directory actions

More options

Directory actions

More options

Latest commit

History

dpo

Folders and files

parent directory

README.md

Direct Preference Optimization (DPO)