Dueling Posterior Sampling – Versión Adaptada con Preferencias B-Pref

Este repositorio contiene una versión adaptada y extendida del código original de:

Dueling Posterior Sampling for Preference-Based Reinforcement Learning
Conference on Uncertainty in Artificial Intelligence (UAI), 2020
Ellen Novoseller, Yibing Wei, Yanan Sui, Yisong Yue y Joel W. Burdick
Paper DPS

Implementando un profesor simulado según las descripciones del benchmark:

B-Pref: Benchmarking Preference-Based Reinforcement Learning
NeurIPS 2021 Datasets and Benchmarks Track
Kimin Lee, Laura Smith, Anca Dragan, Pieter Abbeel
Paper B-Pref

Estructura del repositorio

Learning_algorithms/: Algoritmos implementados (DPS, EPMC, PSRL).
Envs/: Entornos simulados, incluyendo versiones modificadas para BPref.
Scripts principales en el formato algoritmo_in_entorno.py para ejecutar los distintos algoritmos de aprendizaje en la versión BPref de cada entorno.

Reproducción de Resultados

Para reproducir el entorno de desarrollo:

conda env create -f environment.yml
conda activate bpref-dps-env

Luego se ejecuta el script que corresponde con el algoritmo de aprendizaje que se quiere probar en el ambiente que corresponda. La versión actual tiene todos los ambientes implementados para entregar preferencias B-Pref, pero solo se adjuntan scripts para correr los experimentos en RiverSwim.

Referencias

[1] E. Novoseller, Y. Wei, Y. Sui, Y. Yue y J. Burdick. Dueling Posterior Sampling for Preference-Based Reinforcement Learning. arXiv:1908.01289, 2020.
[2] C. Wirth y J. Fürnkranz. A policy iteration algorithm for learning from preference-based feedback, 2013.
[3] C. Wirth. Efficient Preference-Based Reinforcement Learning. Tesis doctoral, 2017.
[4] I. Osband, D. Russo y B. Van Roy. (More) efficient reinforcement learning via posterior sampling, 2013.
[5] K. Lee, L. Smith, A. Dragan y P. Abbeel. B-Pref: Benchmarking Preference-Based Reinforcement Learning. NeurIPS Datasets and Benchmarks Track, 2021.
Repositorio B-Pref

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
Envs		Envs
Learning_algorithms		Learning_algorithms
.gitignore		.gitignore
DPS_GPR_in_RiverSwim.py		DPS_GPR_in_RiverSwim.py
DPS_GP_preference_in_RiverSwim.py		DPS_GP_preference_in_RiverSwim.py
DPS_linear_in_RiverSwim.py		DPS_linear_in_RiverSwim.py
DPS_logistic_in_RiverSwim.py		DPS_logistic_in_RiverSwim.py
EPMC_in_RiverSwim.py		EPMC_in_RiverSwim.py
LICENSE		LICENSE
PSRL_in_RiverSwim.py		PSRL_in_RiverSwim.py
README.md		README.md
ValueIteration.py		ValueIteration.py
environment.yml		environment.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Dueling Posterior Sampling – Versión Adaptada con Preferencias B-Pref

Estructura del repositorio

Reproducción de Resultados

Referencias

About

Uh oh!

Releases

Packages

Languages

License

Daivd093/B-Pref_for_DPS

Folders and files

Latest commit

History

Repository files navigation

Dueling Posterior Sampling – Versión Adaptada con Preferencias B-Pref

Estructura del repositorio

Reproducción de Resultados

Referencias

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages