bgruening · arash77 · Jan 7, 2026 · Mar 5, 2026
diff --git a/tools/llm_hub/llm_hub.py b/tools/llm_hub/llm_hub.py
@@ -5,7 +5,7 @@
 import time
 
 import yaml
-from openai import InternalServerError, OpenAI
+from openai import InternalServerError, OpenAI, RateLimitError
 
 context_files = json.loads(sys.argv[1])
 question = sys.argv[2]
@@ -136,11 +136,13 @@ def encode_image_to_base64(image_path):
         with open("output.md", "w") as f:
             f.write(response.choices[0].message.content or "")
         break
-    except InternalServerError as e:
+    except (InternalServerError, RateLimitError) as e:
         if attempt == max_retries - 1:
             sys.exit("Max retries reached. Exiting.")
         sleep_time = min(2**attempt + random.uniform(0, 1), max_delay)
-        print(
-            f"InternalServerError encountered ({e}). Retrying in {sleep_time:.2f} seconds..."
-        )
+        if isinstance(e, RateLimitError) and hasattr(e, "response") and e.response is not None:
+            retry_after = e.response.headers.get("retry-after")
+            if retry_after:
+                sleep_time = min(float(retry_after), max_delay)
+        print(f"Error encountered ({e}). Retrying in {sleep_time:.2f} seconds...")
         time.sleep(sleep_time)
diff --git a/tools/llm_hub/llm_hub.xml b/tools/llm_hub/llm_hub.xml
@@ -2,7 +2,7 @@
     <description>Call any LLM</description>
     <macros>
         <import>macros.xml</import>
-        <token name="@VERSION_SUFFIX@">1</token>
+        <token name="@VERSION_SUFFIX@">2</token>
         <token name="@PROFILE@">24.0</token>
     </macros>
     <requirements>