Merge pull request #67 from donvito/feature/new-provider-llmgateway

donvito · web-flow · commit dd324bde33d2 · 2025-11-26T16:54:15.000+08:00
Feature/new provider llmgateway
diff --git a/README.md b/README.md
@@ -2,7 +2,7 @@
 
 AIBackends is an API server that you can use to integrate AI into your applications. You can run it locally or self-host it.
 
-The project supports running open source models locally with Ollama and LM Studio. It also supports OpenRouter, OpenAI and Anthropic.
+The project supports running open models locally with Ollama, LM Studio or LlamaCpp. It also supports LLM Gateway, OpenRouter, OpenAI, Anthropic and Google AI Studio, Baseten providers.
 
 ## Why AI Backends?
 
@@ -46,16 +46,22 @@ More to come...check swagger docs for updated endpoints.
 
 ## Supported LLM Providers
 
+### Local Providers
 | Provider | Description | Status |
 |----------|-------------|--------|
 | [Ollama](https://ollama.ai/) | Local models (self-hosted) |  Available |
 | [LM Studio](https://lmstudio.ai/) | Local models via OpenAI-compatible API (self-hosted) | Available |
+| [LlamaCpp](https://github.com/ggml-org/llama.cpp) | Local models via llama.cpp server (self-hosted) | Available |
+
+### Cloud Providers
+| Provider | Description | Status |
+|----------|-------------|--------|
+| [LLM Gateway](https://dub.sh/try-llmgw) | **Recommended** - Unified API for multiple LLM providers with free models | Available |
 | [OpenAI](https://openai.com/) | GPT models | Available |
 | [Anthropic](https://www.anthropic.com/) | Claude models | Available |
 | [OpenRouter](https://openrouter.ai/) | Open source and private models |  Available |
 | [Vercel AI Gateway](https://vercel.com/ai-gateway) | Open source and private models | Available |
-| [LlamaCpp](https://github.com/ggml-org/llama.cpp) | Local models via llama.cpp server (self-hosted) | Available |
-| [Google Gemini](https://ai.google.dev/) | Gemini models via OpenAI-compatible interface | Available |
+| [Google AI Studio](https://ai.google.dev/) | Gemini models via OpenAI-compatible interface | Available |
 | [Baseten](https://baseten.co/) | Cloud-hosted ML models with OpenAI-compatible API | Available |
 
 
@@ -180,27 +186,21 @@ OPENROUTER_API_KEY=your-openrouter-api-key
 # Baseten Configuration
 BASETEN_API_KEY=your-baseten-api-key
 BASETEN_BASE_URL=https://inference.baseten.co/v1
-```
-
-### Google Gemini Setup
 
-To use Google Gemini models:
+# LLM Gateway Configuration (Recommended)
+LLM_GATEWAY_API_KEY=your-llm-gateway-api-key
+```
 
-1. Get your API key from [Google AI Studio](https://makersuite.google.com/app/apikey)
-2. Set `GOOGLE_AI_API_KEY` in your `.env` file
-3. Optionally configure `GEMINI_MODEL` (defaults to `gemini-2.5-flash-lite`)
+### LLM Gateway Setup (Recommended for Cloud Providers)
 
-Available Gemini models:
-- `gemini-2.5-flash-lite` (default)
-- `gemini-2.5-flash`
-- `gemini-2.5-pro`
-- `gemini-pro-vision`
+[LLM Gateway](https://dub.sh/try-llmgw) provides a unified API to access multiple LLM providers with a single API key. It includes several free models to get started.
 
-**Note**: The Gemini provider uses Google's OpenAI-compatible interface to maintain compatibility with AI SDK v4.
+1. Sign up at [LLM Gateway](https://dub.sh/try-llmgw)
+2. Get your API key from the dashboard
+3. Set `LLM_GATEWAY_API_KEY` in your `.env` file
 
 **Important:** Make sure to add `.env` to your `.gitignore` file to avoid committing sensitive information to version control.
 
-
 ## Tech Stack
 
 - Hono for the API server
diff --git a/src/config/models.json b/src/config/models.json
@@ -26,6 +26,15 @@
         { "name": "nvidia_nvidia-nemotron-nano-9b-v2", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "NVIDIA Nemotron Nano 9B v2; compact high-performance model." }
       ]
     },
+    "llmgateway": {
+      "enabled": true,
+      "models": [
+        { "name": "gpt-oss-20b-free", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Free GPT OSS 20B model via LLM Gateway." },
+        { "name": "kimi-k2-0905-free", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Free Kimi K2 model via LLM Gateway." },
+        { "name": "deepseek-r1t2-chimera-free", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "DeepSeek via LLM Gateway." },
+        { "name": "gpt-4o-mini", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "GPT 4o mini via LLM Gateway." }
+      ]
+    },
     "openai": {
       "enabled": true,
       "models": [
@@ -37,6 +46,20 @@
         { "name": "gpt-4o", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "emailReply", "translate", "meetingNotes", "outline"], "notes": "OpenAI next-gen vision model with Q&A capabilities." }
       ]
     },
+    "anthropic": {
+      "enabled": true,
+      "models": [
+        { "name": "claude-3-haiku-20240307", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Anthropic Claude 3 Haiku; fast and cost-effective with Q&A support." }
+      ]
+    },
+    "google": {
+      "enabled": true,
+      "models": [
+        { "name": "gemini-2.5-flash-lite", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Flash Lite with fast processing and vision capabilities." },
+        { "name": "gemini-2.5-flash", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Flash with advanced multimodal capabilities." },
+        { "name": "gemini-2.5-pro", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Pro with enhanced reasoning and vision support." }
+      ]
+    },
     "openrouter": {
       "enabled": true,
       "models": [
@@ -51,12 +74,6 @@
         { "name": "nvidia/nemotron-nano-9b-v2", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "NVIDIA Nemotron Nano 9B v2; compact high-performance model." }
       ]
     },
-    "anthropic": {
-      "enabled": true,
-      "models": [
-        { "name": "claude-3-haiku-20240307", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Anthropic Claude 3 Haiku; fast and cost-effective with Q&A support." }
-      ]
-    },
     "aigateway": {
       "enabled": true,
       "models": [
@@ -67,14 +84,6 @@
         
       ]
     },
-    "google": {
-      "enabled": true,
-      "models": [
-        { "name": "gemini-2.5-flash-lite", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Flash Lite with fast processing and vision capabilities." },
-        { "name": "gemini-2.5-flash", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Flash with advanced multimodal capabilities." },
-        { "name": "gemini-2.5-pro", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "vision", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Google Gemini 2.5 Pro with enhanced reasoning and vision support." }
-      ]
-    },
     "llamacpp": {
       "enabled": true,
       "models": [
@@ -86,7 +95,7 @@
       "models": [
         { "name": "openai/gpt-oss-120b", "capabilities": ["summarize", "web-search", "pdf-summarizer", "pdf-translate", "rewrite", "compose", "planning", "keywords", "sentiment", "askText", "emailReply", "translate", "meetingNotes", "outline"], "notes": "Baseten hosted OpenAI GPT OSS 120B model with comprehensive capabilities." }
       ]
-    }
+    }    
   }
 }
 
diff --git a/src/config/services.ts b/src/config/services.ts
@@ -64,6 +64,14 @@ export interface BasetenConfig extends ServiceConfig {
   timeout?: number;
 }
 
+export interface LLMGatewayConfig extends ServiceConfig {
+  apiKey: string;
+  baseURL: string;
+  model: string;
+  chatModel: string;
+  timeout?: number;
+}
+
 // OpenAI Configuration
 export const openaiConfig: OpenAIConfig = {
   name: 'OpenAI',
@@ -157,8 +165,20 @@ export const basetenConfig: BasetenConfig = {
   timeout: parseInt(process.env.BASETEN_TIMEOUT || '30000'),
 };
 
+// LLM Gateway Configuration
+export const llmgatewayConfig: LLMGatewayConfig = {
+  name: 'LLMGateway',
+  enabled: !!process.env.LLM_GATEWAY_API_KEY,
+  priority: 10,
+  apiKey: process.env.LLM_GATEWAY_API_KEY || '',
+  baseURL: process.env.LLM_GATEWAY_BASE_URL || 'https://api.llmgateway.io/v1',
+  model: process.env.LLM_GATEWAY_MODEL || 'gpt-oss-20b-free',
+  chatModel: process.env.LLM_GATEWAY_CHAT_MODEL || process.env.LLM_GATEWAY_MODEL || 'gpt-oss-20b-free',
+  timeout: parseInt(process.env.LLM_GATEWAY_TIMEOUT || '30000'),
+};
+
 // Available services
-export const availableServices = [openaiConfig, anthropicConfig, ollamaConfig, openrouterConfig, lmstudioConfig, aigatewayConfig, llamacppConfig, googleConfig, basetenConfig];
+export const availableServices = [openaiConfig, anthropicConfig, ollamaConfig, openrouterConfig, lmstudioConfig, aigatewayConfig, llamacppConfig, googleConfig, basetenConfig, llmgatewayConfig];
 
 // Get the primary service (highest priority enabled service)
 export function getPrimaryService(): ServiceConfig | null {
diff --git a/src/schemas/v1/syntheticData.ts b/src/schemas/v1/syntheticData.ts
@@ -4,7 +4,7 @@ import { llmRequestSchema } from './llm'
 /**
  * Schema for JSON schema definition that users can provide
  */
-export const jsonSchemaSchema = z.record(z.any()).describe('JSON Schema definition for the synthetic data structure')
+export const jsonSchemaSchema = z.record(z.string(), z.unknown()).describe('JSON Schema definition for the synthetic data structure')
 
 /**
  * Payload sent by the client for synthetic data generation endpoint.
diff --git a/src/services/interfaces.ts b/src/services/interfaces.ts
@@ -1,6 +1,6 @@
 import { z } from 'zod';
 
-export type ProviderName = 'openai' | 'anthropic' | 'ollama' | 'openrouter' | 'lmstudio' | 'aigateway' | 'llamacpp' | 'google' | 'baseten';
+export type ProviderName = 'openai' | 'anthropic' | 'ollama' | 'openrouter' | 'lmstudio' | 'aigateway' | 'llamacpp' | 'google' | 'baseten' | 'llmgateway';
 
 export interface AIProvider {
   name: ProviderName;
diff --git a/src/services/llmgateway.ts b/src/services/llmgateway.ts
@@ -0,0 +1,117 @@
+import { z } from 'zod';
+import { createOpenAICompatible } from '@ai-sdk/openai-compatible';
+import { generateText, streamText, generateObject } from 'ai';
+import type { AIProvider } from './interfaces';
+import { llmgatewayConfig } from '../config/services';
+
+const normalizedBase = (llmgatewayConfig.baseURL || 'https://api.llmgateway.io/v1').replace(/\/$/, '');
+const LLM_GATEWAY_BASE_URL = normalizedBase;
+
+const llmgateway = createOpenAICompatible({
+  name: 'llmgateway',
+  baseURL: `${LLM_GATEWAY_BASE_URL}`,
+  headers: {
+    'Authorization': `Bearer ${llmgatewayConfig.apiKey}`,
+  },
+});
+
+class LLMGatewayProvider implements AIProvider {
+  name = 'llmgateway' as const;
+
+  async generateChatStructuredResponse(
+    prompt: string,
+    schema: z.ZodType,
+    model: string = llmgatewayConfig.chatModel,
+    temperature: number = 0
+  ): Promise<any> {
+    try {
+      const modelToUse = model || llmgatewayConfig.chatModel;
+      
+      // OpenAI-compatible APIs require the word "json" in the prompt when using response_format: json_object
+      // The generateObject function uses json_object format, so we need to ensure "json" is in the prompt
+      const promptWithJson = prompt.toLowerCase().includes('json') 
+        ? prompt 
+        : `${prompt}\n\nReturn the response as valid JSON.`;
+      
+      const result = await generateObject({
+        model: llmgateway(modelToUse),
+        schema,
+        prompt: promptWithJson,
+        temperature,
+      });
+
+      return {
+        object: result.object,
+        finishReason: result.finishReason,
+        usage: {
+          promptTokens: result.usage?.promptTokens || 0,
+          completionTokens: result.usage?.completionTokens || 0,
+          totalTokens: result.usage?.totalTokens || 0,
+        },
+        warnings: result.warnings,
+      };
+    } catch (error) {
+      throw new Error(`LLM Gateway structured response error: ${error}`);
+    }
+  }
+  
+  
+  async generateChatTextResponse(
+    prompt: string,
+    model?: string,
+    temperature: number = 0
+  ): Promise<any> {
+    try {
+    const modelToUse = llmgateway(model || llmgatewayConfig.model);
+
+    const result = await generateText({
+      model: modelToUse,
+      prompt,
+      temperature,
+    });
+
+    return result;
+    } catch (error) {
+      console.error('LLM Gateway text response error: ', error);
+      throw new Error(`LLM Gateway text response error: ${error}`);
+    }
+  }
+
+  async generateChatTextStreamResponse(
+    prompt: string,
+    model?: string,
+    temperature: number = 0
+  ): Promise<any> {
+    try {
+    const modelToUse = llmgateway(model || llmgatewayConfig.model);
+
+    const result = await streamText({
+      model: modelToUse,
+      prompt,
+      temperature,
+    });
+
+      return result;
+    } catch (error) {
+      console.error('LLM Gateway streaming response error: ', error);
+      throw new Error(`LLM Gateway streaming response error: ${error}`);
+    }
+  }
+
+  async getAvailableModels(): Promise<string[]> {
+    return [
+      'gpt-oss-20b-free',
+      'glm-4.5-air-free',
+      'llama-3.3-70b-instruct-free',
+      'glm-4.5-flash',
+      'llama-4-maverick-free',
+      'kimi-k2-0905-free',
+      'llama-4-scout-free',
+    ];
+  }
+}
+
+const provider = new LLMGatewayProvider();
+
+export default provider;
+export { LLM_GATEWAY_BASE_URL };
diff --git a/src/services/providers.ts b/src/services/providers.ts
@@ -1,3 +1,3 @@
 import { z } from 'zod';
 
-export const providersSupported = z.enum(['ollama', 'openai', 'anthropic', 'openrouter', 'lmstudio', 'aigateway', 'llamacpp', 'google', 'baseten']);
+export const providersSupported = z.enum(['ollama', 'openai', 'anthropic', 'openrouter', 'lmstudio', 'aigateway', 'llamacpp', 'google', 'baseten', 'llmgateway']);
diff --git a/src/services/registry.ts b/src/services/registry.ts
@@ -9,6 +9,7 @@ import aigatewayProvider from './aigateway';
 import llamacppProvider from './llamacpp';
 import geminiProvider from './google';
 import basetenProvider from './baseten';
+import llmgatewayProvider from './llmgateway';
 
 export class ServiceRegistry {
   private providers = new Map<ProviderName, AIProvider>();
@@ -46,6 +47,7 @@ serviceRegistry.register(aigatewayProvider);
 serviceRegistry.register(llamacppProvider);
 serviceRegistry.register(geminiProvider);
 serviceRegistry.register(basetenProvider);
+serviceRegistry.register(llmgatewayProvider);
 
 // Helper for tests to replace the registry content
 export function replaceRegistryForTests(registry: ServiceRegistry) {
diff --git a/src/templates/askTextDemo.html b/src/templates/askTextDemo.html
@@ -170,6 +170,7 @@ <h2 class="text-lg font-semibold mb-3">Input</h2>
           <div>
             <label class="block text-sm font-medium text-gray-700 mb-1">Provider</label>
             <select id="provider" class="w-full p-2 rounded-lg border border-gray-300 focus:outline-none focus:ring-2 focus:ring-brand-purple">
+              <option value="llmgateway">llmgateway</option>
               <option value="ollama">ollama</option>
               <option value="openai">openai</option>
               <option value="anthropic">anthropic</option>
diff --git a/src/templates/composeDemo.html b/src/templates/composeDemo.html
@@ -617,7 +617,7 @@ <h2 class="text-lg font-semibold">Output</h2>
     cancelBtn.addEventListener('click', (e) => { e.preventDefault(); cancel(); });
     loadSampleBtn.addEventListener('click', (e) => { e.preventDefault(); setSample(); });
 
-    initModels();
+    initModels().then(() => setSample());
     updatePreview();
   </script>
 </body>
diff --git a/src/templates/outlineDemo.html b/src/templates/outlineDemo.html
diff --git a/src/templates/rewriteDemo.html b/src/templates/rewriteDemo.html

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`import { z } from 'zod';`
`2`	`2`
`3`		`-export const providersSupported = z.enum(['ollama', 'openai', 'anthropic', 'openrouter', 'lmstudio', 'aigateway', 'llamacpp', 'google', 'baseten']);`
	`3`	`+export const providersSupported = z.enum(['ollama', 'openai', 'anthropic', 'openrouter', 'lmstudio', 'aigateway', 'llamacpp', 'google', 'baseten', 'llmgateway']);`