Merge pull request #340 from mucsi96/claude/loving-mayer-r6nz60

mucsi96 · web-flow · commit f6fe14f0689c · 2026-06-10T22:17:29.000+02:00
Add Google Gemini TTS as switchable audio generation model
diff --git a/AGENTS.md b/AGENTS.md
@@ -59,7 +59,7 @@ This is a language learning application that uses spaced repetition to help user
 
 ### Key Technologies
 - **Spaced Repetition**: Uses FSRS (Free Spaced Repetition Scheduler) algorithm via ts-fsrs library
-- **AI Integration**: OpenAI GPT-4.1 for translations, ElevenLabs Voices for audio, Google Gemini API for example images
+- **AI Integration**: OpenAI GPT-4.1 for translations, ElevenLabs Voices and Google Gemini TTS for audio, Google Gemini API for example images
 - **Cloud Services**: Local file system for PDFs/assets storage, Azure AD for authentication
 - **PDF Processing**: Apache PDFBox for text extraction and document processing
 
diff --git a/client/src/app/environment/environment.config.ts b/client/src/app/environment/environment.config.ts
@@ -1,6 +1,6 @@
 import { InjectionToken } from '@angular/core';
 
-export type ModelProvider = 'openai' | 'anthropic' | 'google';
+export type ModelProvider = 'openai' | 'anthropic' | 'google' | 'elevenlabs';
 
 export interface ChatModelInfo {
   modelName: string;
@@ -17,13 +17,15 @@ export interface AudioModel {
   id: string;
   displayName: string;
   isDefault: boolean;
+  provider: ModelProvider;
 }
 
 export interface Voice {
   id: string;
   displayName: string;
   languages: { name: string }[];
   category: 'premade' | 'cloned' | 'generated' | 'professional' | null;
+  provider: ModelProvider;
 }
 
 export interface SupportedLanguage {
diff --git a/client/src/app/voice-config/add-voice-dialog/add-voice-dialog.component.html b/client/src/app/voice-config/add-voice-dialog/add-voice-dialog.component.html
@@ -43,7 +43,7 @@ <h2 mat-dialog-title>Add Voice Configuration</h2>
       <mat-select
         [formField]="voiceForm.model"
       >
-        @for (model of models; track model.id) {
+        @for (model of availableModels(); track model.id) {
           <mat-option [value]="model.id">
             {{ model.displayName }}
             @if (model.isDefault) {
diff --git a/client/src/app/voice-config/add-voice-dialog/add-voice-dialog.component.ts b/client/src/app/voice-config/add-voice-dialog/add-voice-dialog.component.ts
@@ -53,11 +53,18 @@ export class AddVoiceDialogComponent {
   });
   readonly voiceForm = form(this.formModel);
 
-  readonly models = this.data.audioModels;
+  readonly availableModels = computed(() => {
+    const voice = this.formModel().voice;
+    if (!voice) return this.data.audioModels;
+
+    return this.data.audioModels.filter(
+      (model) => model.provider === voice.provider
+    );
+  });
 
-  private getDefaultModelId(): string {
-    const defaultModel = this.data.audioModels.find((m) => m.isDefault);
-    return defaultModel?.id ?? this.data.audioModels[0]?.id ?? '';
+  private getDefaultModelId(models = this.data.audioModels): string {
+    const defaultModel = models.find((m) => m.isDefault);
+    return defaultModel?.id ?? models[0]?.id ?? '';
   }
 
   readonly filteredVoices = computed(() => this.data.availableVoices);
@@ -81,6 +88,7 @@ export class AddVoiceDialogComponent {
     this.formModel.update((m) => ({
       ...m,
       language: langs.length === 1 ? langs[0] : '',
+      model: this.getDefaultModelId(this.availableModels()),
       displayName: m.voice?.displayName ?? '',
     }));
   }
diff --git a/mock_google_ai_server/src/audioGeneration.ts b/mock_google_ai_server/src/audioGeneration.ts
@@ -0,0 +1,42 @@
+const SAMPLE_RATE = 24000;
+const BEEP_DURATION_SECONDS = 0.3;
+const BEEP_AMPLITUDE = 12000;
+
+// Raw 16-bit PCM mono sine beeps, matching the format Gemini TTS returns
+const generatePcmBeep = (frequency: number): string => {
+  const sampleCount = Math.floor(SAMPLE_RATE * BEEP_DURATION_SECONDS);
+  const samples = Int16Array.from({ length: sampleCount }, (_, i) =>
+    Math.round(Math.sin((2 * Math.PI * frequency * i) / SAMPLE_RATE) * BEEP_AMPLITUDE)
+  );
+  return Buffer.from(samples.buffer).toString('base64');
+};
+
+export const AUDIO_SAMPLES = {
+  german: generatePcmBeep(440),
+  hungarian: generatePcmBeep(660),
+};
+
+export class AudioGenerationHandler {
+  private audioCallCounter = 0;
+
+  reset(): void {
+    this.audioCallCounter = 0;
+  }
+
+  generateAudio(prompt: string, voiceName?: string): string {
+    this.audioCallCounter++;
+
+    const isHungarian = /Hungarian/i.test(prompt);
+    const audioBase64 = isHungarian ? AUDIO_SAMPLES.hungarian : AUDIO_SAMPLES.german;
+
+    console.log(
+      `Generated TTS audio for prompt: "${prompt}" (language: ${isHungarian ? 'hu' : 'de'}, voice: ${voiceName ?? 'unknown'})`
+    );
+
+    return audioBase64;
+  }
+
+  getCallCount(): number {
+    return this.audioCallCounter;
+  }
+}
diff --git a/mock_google_ai_server/src/index.ts b/mock_google_ai_server/src/index.ts
@@ -1,10 +1,12 @@
 import express from 'express';
 import { ImageGenerationHandler } from './imageGeneration';
 import { ChatHandler } from './chatHandler';
+import { AudioGenerationHandler } from './audioGeneration';
 
 const app = express();
 const imageHandler = new ImageGenerationHandler();
 const chatHandler = new ChatHandler();
+const audioHandler = new AudioGenerationHandler();
 
 app.use(express.json({ limit: '25mb' }));
 
@@ -20,7 +22,12 @@ app.use((req, res, next) => {
 app.post('/reset', (req, res) => {
   imageHandler.reset();
   chatHandler.reset();
-  res.status(200).json({ status: 'ok', message: 'Image counter reset to 0' });
+  audioHandler.reset();
+  res.status(200).json({ status: 'ok', message: 'Mock state reset' });
+});
+
+app.get('/stats', (req, res) => {
+  res.status(200).json({ audioCallCount: audioHandler.getCallCount() });
 });
 
 app.post('/configure', (req, res) => {
@@ -60,6 +67,38 @@ app.post(
   }
 );
 
+app.post(
+  '/v1beta/models/gemini-3.1-flash-tts-preview:generateContent',
+  (req, res) => {
+    try {
+      const prompt = req.body.contents[0].parts[0].text;
+      const voiceName =
+        req.body.generationConfig?.speechConfig?.voiceConfig
+          ?.prebuiltVoiceConfig?.voiceName;
+      const audio = audioHandler.generateAudio(prompt, voiceName);
+      res.status(200).json({
+        candidates: [
+          {
+            content: {
+              parts: [
+                {
+                  inlineData: {
+                    mimeType: 'audio/L16;codec=pcm;rate=24000',
+                    data: audio,
+                  },
+                },
+              ],
+            },
+          },
+        ],
+      });
+    } catch (error) {
+      console.error('Audio generation error:', error);
+      res.status(500).json({ error: { message: 'Audio generation failed' } });
+    }
+  }
+);
+
 app.post(/\/v1beta\/models\/([^/]+):generateContent/, async (req, res) => {
   try {
     const model = req.params[0];
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/config/ModelPricingConfig.java b/server/src/main/java/io/github/mucsi96/learnlanguage/config/ModelPricingConfig.java
@@ -48,7 +48,9 @@ public record AudioModelPricing(BigDecimal perThousandCharacters) {}
     private static final Map<String, AudioModelPricing> AUDIO_MODEL_PRICING = Map.of(
         // ElevenLabs (approximately $0.20 per 1000 characters)
         "eleven_turbo_v2_5", new AudioModelPricing(new BigDecimal("0.20")),
-        "eleven_v3", new AudioModelPricing(new BigDecimal("0.20"))
+        "eleven_v3", new AudioModelPricing(new BigDecimal("0.20")),
+        // Gemini TTS is token-priced; approximated per 1000 characters
+        "gemini-3.1-flash-tts-preview", new AudioModelPricing(new BigDecimal("0.02"))
     );
 
     public ChatModelPricing getChatModelPricing(String modelName) {
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/controller/EnvironmentController.java b/server/src/main/java/io/github/mucsi96/learnlanguage/controller/EnvironmentController.java
@@ -3,6 +3,7 @@
 import java.util.Arrays;
 import java.util.List;
 import java.util.Map;
+import java.util.stream.Stream;
 
 import org.springframework.beans.factory.annotation.Value;
 import org.springframework.web.bind.annotation.GetMapping;
@@ -20,6 +21,7 @@
 import io.github.mucsi96.learnlanguage.service.AudioSettingService;
 import io.github.mucsi96.learnlanguage.service.ChatModelSettingService;
 import io.github.mucsi96.learnlanguage.service.ElevenLabsAudioService;
+import io.github.mucsi96.learnlanguage.service.GeminiAudioService;
 import io.github.mucsi96.learnlanguage.service.ImageModelSettingService;
 import io.github.mucsi96.learnlanguage.service.ImageSettingService;
 import io.github.mucsi96.learnlanguage.service.RateLimitSettingService;
@@ -30,6 +32,7 @@
 public class EnvironmentController {
   private final AudioService audioService;
   private final ElevenLabsAudioService elevenLabsAudioService;
+  private final GeminiAudioService geminiAudioService;
   private final ChatModelSettingService chatModelSettingService;
   private final ImageModelSettingService imageModelSettingService;
   private final ImageSettingService imageSettingService;
@@ -101,7 +104,9 @@ public ConfigResponse getConfig() {
             .toList(),
         imageModelSettingService.getImageModelsWithSettings(),
         audioService.getAvailableModels(),
-        elevenLabsAudioService.getVoices(),
+        Stream.concat(
+            elevenLabsAudioService.getVoices().stream(),
+            geminiAudioService.getVoices().stream()).toList(),
         SUPPORTED_LANGUAGES,
         enabledModelsByOperation,
         primaryModelByOperation,
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/model/AudioModelResponse.java b/server/src/main/java/io/github/mucsi96/learnlanguage/model/AudioModelResponse.java
@@ -13,4 +13,5 @@ public class AudioModelResponse {
     private String id;
     private String displayName;
     private boolean isDefault;
+    private ModelProvider provider;
 }
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/model/ModelProvider.java b/server/src/main/java/io/github/mucsi96/learnlanguage/model/ModelProvider.java
@@ -10,7 +10,8 @@
 public enum ModelProvider {
     OPENAI("openai"),
     ANTHROPIC("anthropic"),
-    GOOGLE("google");
+    GOOGLE("google"),
+    ELEVENLABS("elevenlabs");
 
     private final String code;
 
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/model/VoiceResponse.java b/server/src/main/java/io/github/mucsi96/learnlanguage/model/VoiceResponse.java
@@ -16,4 +16,5 @@ public class VoiceResponse {
     private String displayName;
     private List<LanguageResponse> languages;
     private String category;
-}
+    private ModelProvider provider;
+}
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/service/AudioService.java b/server/src/main/java/io/github/mucsi96/learnlanguage/service/AudioService.java
@@ -6,6 +6,7 @@
 import org.springframework.stereotype.Service;
 
 import io.github.mucsi96.learnlanguage.model.AudioModelResponse;
+import io.github.mucsi96.learnlanguage.model.ModelProvider;
 import lombok.RequiredArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
 
@@ -19,19 +20,30 @@ public class AudioService {
           .id("eleven_v3")
           .displayName("Eleven v3")
           .isDefault(true)
+          .provider(ModelProvider.ELEVENLABS)
           .build(),
       AudioModelResponse.builder()
           .id("eleven_turbo_v2_5")
           .displayName("Eleven Turbo v2.5")
           .isDefault(false)
+          .provider(ModelProvider.ELEVENLABS)
+          .build(),
+      AudioModelResponse.builder()
+          .id(GeminiAudioService.MODEL_NAME)
+          .displayName("Gemini 3.1 Flash TTS")
+          .isDefault(false)
+          .provider(ModelProvider.GOOGLE)
           .build()
   );
 
   private final ElevenLabsAudioService elevenLabsAudioService;
+  private final GeminiAudioService geminiAudioService;
 
   public byte[] generateAudio(String input, String voiceName, String model, String language, String context, boolean singleWord) throws IOException {
     if ("eleven_turbo_v2_5".equals(model) || "eleven_v3".equals(model)) {
       return elevenLabsAudioService.generateAudio(input, voiceName, model, language, context, singleWord);
+    } else if (GeminiAudioService.MODEL_NAME.equals(model)) {
+      return geminiAudioService.generateAudio(input, voiceName, language, singleWord);
     } else {
       throw new IllegalArgumentException("Unsupported audio model: " + model);
     }
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/service/ElevenLabsAudioService.java b/server/src/main/java/io/github/mucsi96/learnlanguage/service/ElevenLabsAudioService.java
@@ -7,6 +7,7 @@
 import org.springframework.stereotype.Service;
 
 import io.github.mucsi96.learnlanguage.model.LanguageResponse;
+import io.github.mucsi96.learnlanguage.model.ModelProvider;
 import io.github.mucsi96.learnlanguage.model.OperationType;
 import io.github.mucsi96.learnlanguage.model.VoiceResponse;
 import lombok.RequiredArgsConstructor;
@@ -105,6 +106,7 @@ public List<VoiceResponse> getVoices() {
                   .displayName(voice.name())
                   .languages(supportedLanguages)
                   .category(voice.category() != null ? voice.category().getValue() : null)
+                  .provider(ModelProvider.ELEVENLABS)
                   .build();
           })
           .filter(voice -> !voice.getLanguages().isEmpty())
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/service/GeminiAudioService.java b/server/src/main/java/io/github/mucsi96/learnlanguage/service/GeminiAudioService.java
diff --git a/server/src/main/java/io/github/mucsi96/learnlanguage/service/VoiceConfigurationService.java b/server/src/main/java/io/github/mucsi96/learnlanguage/service/VoiceConfigurationService.java
diff --git a/test/tests/bulk-audio-creation.spec.ts b/test/tests/bulk-audio-creation.spec.ts
diff --git a/test/tests/voice-config.spec.ts b/test/tests/voice-config.spec.ts

Original file line number	Diff line number	Diff line change
`@@ -43,7 +43,7 @@ <h2 mat-dialog-title>Add Voice Configuration</h2>`
`43`	`43`	`<mat-select`
`44`	`44`	`[formField]="voiceForm.model"`
`45`	`45`	`>`
`46`		`- @for (model of models; track model.id) {`
	`46`	`+ @for (model of availableModels(); track model.id) {`
`47`	`47`	`<mat-option [value]="model.id">`
`48`	`48`	`{{ model.displayName }}`
`49`	`49`	`@if (model.isDefault) {`
Original file line number	Diff line number	Diff line change
`@@ -13,4 +13,5 @@ public class AudioModelResponse {`
`13`	`13`	`private String id;`
`14`	`14`	`private String displayName;`
`15`	`15`	`private boolean isDefault;`
	`16`	`+ private ModelProvider provider;`
`16`	`17`	`}`