Ce projet explore l'utilisation de Deep Q-Networks (DQN) pour prédire la prochaine action à prendre dans un environnement partiellement observable. L'objectif principal est d'implémenter un agent capable de maintenir une mémoire des actions passées afin de mieux prédire les actions futures, même en l'absence d'une observation complète de l'état actuel. Cette approche vise à améliorer la prise de décision dans des environnements où toutes les informations nécessaires ne sont pas immédiatement accessibles.
Ce projet est réalisé dans le cadre de l'UE de Projet du Master 1 DAC sous la supervision d'Olivier Sigaud.
| Dossier | Description |
|---|---|
| /src | Code source principal |
| ├── /maps | Création d'environnements personnalisés |
| ├── /envs | Environnements d'expérimentation |
| └── /utils | Fonctions utilitaires |
| /docs | Documentation du projet |
| ├── /cr | Comptes rendus hebdomadaire |
| └── /notebooks | Notebooks liés au projet |
| └── /analyse DQN | Analyses sur des env gym différents |
| README.md | Présentation du projet |
| .gitignore | Fichiers à ignorer par Git |
| requirements.txt | Dépendances Python |
- Python
- BBRL
- Gymnasium
- NumPy
- Matplotlib
- Cloner le dépôt :
git clone https://github.com/ton-repo/projet-dqn-ddpg.git
cd projet-dqn-ddpg- Installer les dépendances :
pip install -r requirements.txt- Implémenter un agent DQN dans un environnement partiellement observable.
- Utiliser une mémoire pour stocker et exploiter les actions passées afin de prédire les actions futures.
- Tester et analyser les performances de l'agent sur différents environnements.
- Comparer l'impact de l'intégration de la mémoire sur la prise de décision de l'agent.