Alignment RL

A simple experiment with reinforcement learning on a small language model.
Uses PPO or GRPO to optimize a hand-crafted reward.
Demonstrates how models can learn to game the reward instead of improving output quality.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
align_toy.py		align_toy.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Alignment RL

About

Uh oh!

Releases

Packages

Languages

vincentcounathe/alignment-toy-rl

Folders and files

Latest commit

History

Repository files navigation

Alignment RL

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages