armgilles
diff --git a/‎.github/workflows/CI.yml‎
Lines changed: 1 addition & 0 deletions b/‎.github/workflows/CI.yml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎config_llm/prompt_tools.toml‎
Lines changed: 96 additions & 0 deletions b/‎config_llm/prompt_tools.toml‎
Lines changed: 96 additions & 0 deletions
diff --git a/‎config_llm/prompt_vcub_agent.toml‎
Lines changed: 81 additions & 0 deletions b/‎config_llm/prompt_vcub_agent.toml‎
Lines changed: 81 additions & 0 deletions
diff --git a/‎config_llm/vcub_agent.toml‎
Lines changed: 7 additions & 0 deletions b/‎config_llm/vcub_agent.toml‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎conftest.py‎
Lines changed: 44 additions & 0 deletions b/‎conftest.py‎
Lines changed: 44 additions & 0 deletions
diff --git a/‎notebooks/05_llm/01_play_with_agent.ipynb‎
Lines changed: 3 additions & 0 deletions b/‎notebooks/05_llm/01_play_with_agent.ipynb‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎notebooks/06_prediction/01_prediction_velo_station.ipynb‎
Lines changed: 3 additions & 0 deletions b/‎notebooks/06_prediction/01_prediction_velo_station.ipynb‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 6 additions & 1 deletion b/‎pyproject.toml‎
Lines changed: 6 additions & 1 deletion
@@ -28,6 +28,7 @@ jobs:
       run: |
           touch .env
           echo KEY_API_BDX=${{ secrets.KEY_API_BDX }} >> .env
+          echo MISTRAL_API_KEY=${{ secrets.MISTRAL_API_KEY }} >> .env
     - name: Copy test data
       run: |
         cp -r ${{ env.ROOT_TESTS_DATA }}/* ${{ github.workspace }}/tests/
 
@@ -8,6 +8,7 @@ model
 *.html
 # test data for CI
 !/tests/data_for_tests/*
+*.parquet
 
 # Byte-compiled / optimized / DLL files
 __pycache__/
 
@@ -49,6 +49,7 @@ Créer un .env à la racine du projet avec :
 - API_METEO="YOUR TOKEN HERE" (finalement, la météo n'est plus utilisé dans le projet).
 - MAPBOX_TOKEN="YOUR TOKEN HERE" (pour l'utilisation des graphiques avec mapbox).
 - KEY_API_BDX="YOUR KEY HERE" (pour l'utilisation de l'API open data de Bordeaux. Pour obtenir une [clef](https://data.bordeaux-metropole.fr/opendata/key))
+- MISTRAL_API_KEY="YOUR KEY HERE" (pour l'utilisation de l'API Mistral. Pour obtenir une [clef](https://mistral.ai/))
 
 ## Études : 
 
 
@@ -0,0 +1,96 @@
+[get_distance_prompt]
+# Description du tool
+prompt_descrption = """Calculer la distance entre deux stations (en km) grâce à leurs coordonnées (lat, lon).
+
+IMPORTANT: Les paramètres doivent être fournis en gardant leurs précisions: 
+
+Exemple d'utilisation:
+1. Chercher les coordonnées de la station "Stalingrad":
+   df[df["station_name"] == "STALINGRAD"]
+2. Observer le résultat.
+3. Chercher les coordonnées de la station "Porte de Bourgogne":
+   df[df["station_name"] == "PORTE DE BOURGOGNE"]
+4. Observer le résultat.
+5. Utiliser get_distance(lat1,lon1,lat2,lon2) avec les valeurs numériques obtenues:
+   distance = get_distance(lat1=44.8378,lon1=-0.57921,lat2=44.8407,lon2=-0.5811) sans arrondir les valeurs !
+
+Note: Dans le cas ou tu n'arrives pas à trouver les données pour une station, tu peux essayer 
+df[df["station_name"].str.contains("meriadeck", case=False)] qui est plus général dans le nom de la station.
+
+Cela renvoie la distance en kilomètres entre les deux stations, un vélo roule en moyenne à 15 km/h.
+donc tu peux indiquer aussi le temps de trajet en minutes.
+"""
+
+[get_geocoding_prompt]
+prompt_descrption = """Récupérer la latitude et la longitude d'une adresse postale en France.
+Exemple d'utilisation: lat, lon = get_geocoding("1 rue de la République, Bordeaux").
+"""
+
+[find_nearest_stations_prompt]
+prompt_descrption = """Trouve les X stations les plus proches d'une coordonnée GPS. 
+IMPORTANT: Les paramètres doivent être fournis comme des arguments séparés et typés correctement: 
+lat (float), lon (float), nombre_station_proche (int, optionnel).
+Exemple pour avoir les 2 stations les plus proche d'une latitude (ex: 44.0485) et d'une longitude (ex: -0.5785) qui sont des float:
+nearest_stations_json = find_nearest_stations(last_info_station=df,
+                                            lat=44.0485, lon=-0.5785, nombre_station_proche=2)
+Cela renvoie un json avec les 2 stations les plus proches avec une colonne "distance" en km
+ainsi que les informations liées à la station : 
+[{'station_id': 103,
+  'date': Timestamp('2025-03-05 15:40:00'),
+  'available_stands': 10,
+  'available_bikes': 22,
+  'status': 1,
+  'anomaly': 1.0,
+  'station_name': 'Place du Palais',
+  'commune_name': 'Bordeaux',
+  'lat': 44.837799072265625,
+  'lon': -0.5702999830245972,
+  'distance': 0.0672468849653659},
+ {'station_id': 42,
+  'date': Timestamp('2025-03-05 15:40:00'),
+  'available_stands': 15,
+  'available_bikes': 0,
+  'status': 1,
+  'anomaly': 1.0,
+  'station_name': 'Camille Jullian',
+  'commune_name': 'Bordeaux',
+  'lat': 44.83919906616211,
+  'lon': -0.5720000267028809,
+  'distance': 0.15456434694289684}]
+"""
+
+[get_prediction_station_prompt]
+prompt_descrption = """
+Permet de faire une prédiction sur une station donnée à partir des données historiques disponibles.
+Réflexion :
+1. Trouver l'ID de la station à partir du nom de la station dans le DataFrame last_info_station.
+2. Calculer l'horizon de prédiction.
+3. Utiliser la fonction get_prediction_station pour faire la prédiction.
+
+Paramètres requis :
+- 'target_station_id' (int) : ID de la station à prédire.
+- 'target_col' (str) : Colonne cible à prédire, par exemple 'available_bike_stands' ou 'available_bikes' UNIQUEMENT.
+- 'horizon_prediction' (str) : Horizon de prédiction par période de 10 minutes, par exemple '20m', '2h', '4h', '1d', etc.
+
+Calcul de l'horizon de prédiction :
+- Utilisez la date actuelle (présente dans last_info_station).
+- Interprétez la demande de l'utilisateur pour en déduire l'horizon de prédiction -> date désirée par l'utilisateur - date actuelle !
+IMPORTANT : NE PAS UTILISER python_repl_ast pour calculer l'horizon de prédiction !
+- Ne faites pas de prédiction sur une période supérieure à 24 heures. Si la
+période dépasse 24 heures, indiquez à l'utilisateur que ce n'est pas possible.
+
+Exemple d'utilisation :
+L'utilisateur souhaite prédire le nombre de vélos disponibles à la station Berges du Lac dans 2 heures.
+1. Trouvez l'ID de la station Berges du Lac dans le DataFrame last_info_station.
+2. Utilisez la date actuelle pour calculer l'horizon de prédiction.
+3. Exécutez la fonction get_prediction_station avec les paramètres suivants :
+   params = "target_station_id=175,target_col=available_bike_stands,horizon_prediction=2h"
+4. La fonction renvoie la prédiction du nombre de vélos disponibles (y_pred) sous la forme d'un df Polars.
+
+
+Exemple de code :
+```python
+params = "target_station_id=175,target_col=available_bike_stands,horizon_prediction=2h"
+prediction = get_prediction_station(params)
+```
+"""
@@ -0,0 +1,81 @@
+[vcub_agent_prompt]
+# Configuration pour dicter à l'agent comment procéder
+template_llm = """
+Le dataframe contient des informations sur les stations à LA DATE LA PLUS RÉCENTE avec les colonnes suivantes:
+- station_id: l'id de la station
+- date: la date 
+- available_stands: le nombre de place disponible
+- available_bikes: le nombre de vélos disponibles
+- status: le statut de la station (1: tout va bien / 0: Maintenance ou problème)
+- lat: la latitude de la station
+- lon: la longitude de la station
+- station_name: le nom de la station
+- anomaly: une colonne qui indique si la station a un problème (1: pas de problème / -1: problème / absence de données: station non surveillée par les algorithmes de machine learning)
+- commune_name: Le nom de la commune où se trouve la station
+
+Assure-toi de d'utiliser les bonnes pratiques de Pandas pour manipuler ces données !
+La colonne "date" représente la date actuelle pour les différents calculs d'horizon de prédiction.
+
+{tools}
+
+RÈGLES DE FORMATAGE STRICTES À SUIVRE ABSOLUMENT:
+
+1. JAMAIS d'action et de réponse finale dans le même message.
+2. RESPECTE toujours cet ordre pour l'utilisation des tools: Thought → Action → Observation → Thought → ... → Final Answer
+3. TOUJOURS terminer par "Final Answer:" uniquement quand tu as TOUTES les informations.
+4. JAMAIS utiliser "response_type:" dans tes réponses.
+5. **NE JAMAIS produire une action ou réflexion après avoir donné la réponse finale. Une fois que la réponse finale est donnée, l'exécution doit être considérée comme terminée.**
+6. **Si tu as toutes les informations nécessaires pour répondre à la question, passe directement à la réponse finale sans ajouter de réflexion supplémentaire.**
+7. **Ne fais pas de nouvelles actions une fois que tu as produit la réponse finale.**
+8. **Pour les interactions simples de chat (par exemple, dire bonjour, répondre à des questions générales), réponds directement sans utiliser de tools.**
+
+FORMATS VALIDES:
+--------------------
+FORMAT POUR CONTINUER AVEC UNE ACTION:
+Thought: <ta réflexion>
+Action: <nom_outil>
+Action Input: <paramètres>
+Observation: <résultat de l'outil utilisé>
+
+FORMAT POUR LA RÉPONSE FINALE (uniquement quand tu as toutes les informations):
+Final Answer: <réponse concise>
+
+FORMAT POUR LES INTERACTIONS SIMPLES DE CHAT:
+Final Answer: <réponse concise>
+--------------------
+
+Utilise un des outils suivants: {tool_names}
+
+Question: {input}
+{agent_scratchpad}
+"""
+
+# Présentation de l'agent
+prefix_agent = """Tu es un assistant spécialisé dans l'analyse des données des stations VCub de Bordeaux.
+Tu peux répondre uniquement aux questions liées à ton activité sur la zone de Bordeaux et de la métropole.
+
+Les données ne sont pas triées ou filtrées. Tu dois utiliser les bonnes pratiques de Pandas!
+Tu as accès à l'historique de la conversation précédente dans 
+{chat_history}
+"""
+
+# Gestion des erreurs
+prompt_gestion_erreurs = """
+ERREUR DE FORMAT DÉTECTÉE! Suivez STRICTEMENT ce format:
+
+Si "Final Answer" est présent dans votre réponse précédente, il FAUT
+IMPÉRATIVEMENT donner UNIQUEMENT cette réponse dans la réponse actuelle sans
+autres nouvelles Action Observation ou Thought, simplement la réponse finale.
+
+Dans le cas où vous devez effectuer une action, utilisez le format suivant:
+Pour utiliser un outil:
+Thought: <votre réflexion>
+Action: <nom_outil>
+Action Input: <paramètres>
+
+Pour donner la réponse finale:
+Final Answer: <réponse concise> Sans ajout de contexte ou d’explication supplémentaire.
+
+N'UTILISEZ JAMAIS "response_type:". 
+N'INCLUEZ JAMAIS une action ET une réponse finale ensemble.
+"""
@@ -0,0 +1,7 @@
+[vcub_agent]
+return_intermediate_steps = true
+prefix = ""  # Vous devrez définir la valeur appropriée
+max_iterations = 7
+allow_dangerous_code = true
+verbose = true
+early_stopping_method = "force"
@@ -0,0 +1,44 @@
+import time
+
+import pytest
+
+# Variables globales pour suivre le timing des appels API Mistral
+last_api_call = 0
+MIN_DELAY = 1.4  # Minimum delay in seconds
+
+
+# Créez un marqueur pour les tests LLM
+def pytest_configure(config):
+    """
+    Add a marker for LLM API tests.
+    This allows us to easily identify and manage tests that interact with the LLM API.
+    """
+    config.addinivalue_line("markers", "llm_api: mark a test that calls the LLM API")
+
+
+@pytest.fixture(autouse=True)
+def api_rate_limit(request):
+    """Fixture to ensure API rate limits are respected."""
+    # N'appliquer le délai qu'aux tests marqués avec llm_api
+    if request.node.get_closest_marker("llm_api") is None:
+        yield
+        return
+
+    global last_api_call
+
+    # Calculate time since last API call
+    current_time = time.time()
+    elapsed = current_time - last_api_call
+
+    # If not enough time has passed, wait
+    if elapsed < MIN_DELAY:
+        wait_time = MIN_DELAY - elapsed
+        time.sleep(wait_time)
+
+    # Update the last API call time
+    last_api_call = time.time()
+
+    yield  # This is where the test runs
+
+    # Update again after the test completes
+    last_api_call = time.time()
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6a8f12e5d0aa4fd7b28e2afb35598b50e7851ef1946d282037ccf1646b7cd10
+size 100359
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f94bb77999b6f2ddec2e54f32a62b84511274e5efce5762936410884a04dcc9
+size 145817
@@ -5,7 +5,7 @@ build-backend = "setuptools.build_meta"
 [project]
 name = "vcub_keeper"
 
-version = "1.4.1"
+version = "1.5.0"
 requires-python = ">=3.12"
 readme = "README.md"
 
@@ -26,6 +26,11 @@ dependencies = [
     "tables==3.10.1",
     "matplotlib==3.9.2",
     "seaborn==0.13.2",
+    "langchain==0.3.19",
+    "langchain-experimental==0.3.4",
+    "langchain-mistralai==0.2.7",
+    "tabulate==0.9.0",
+    "geopy==2.4.1"
 ]
 
 [project.optional-dependencies]
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+version https://git-lfs.github.com/spec/v1`
	`2`	`+oid sha256:a6a8f12e5d0aa4fd7b28e2afb35598b50e7851ef1946d282037ccf1646b7cd10`
	`3`	`+size 100359`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+version https://git-lfs.github.com/spec/v1`
	`2`	`+oid sha256:2f94bb77999b6f2ddec2e54f32a62b84511274e5efce5762936410884a04dcc9`
	`3`	`+size 145817`