memohai
diff --git a/‎provider/alibabacloud/speech/speech.go‎
Lines changed: 14 additions & 2 deletions b/‎provider/alibabacloud/speech/speech.go‎
Lines changed: 14 additions & 2 deletions
diff --git a/‎provider/alibabacloud/speech/speech_test.go‎
Lines changed: 13 additions & 0 deletions b/‎provider/alibabacloud/speech/speech_test.go‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎provider/anthropic/messages/messages.go‎
Lines changed: 3 additions & 1 deletion b/‎provider/anthropic/messages/messages.go‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎provider/deepgram/speech/speech.go‎
Lines changed: 12 additions & 1 deletion b/‎provider/deepgram/speech/speech.go‎
Lines changed: 12 additions & 1 deletion
diff --git a/‎provider/deepgram/speech/speech_test.go‎
Lines changed: 17 additions & 4 deletions b/‎provider/deepgram/speech/speech_test.go‎
Lines changed: 17 additions & 4 deletions
diff --git a/‎provider/deepgram/transcription/transcription.go‎
Lines changed: 179 additions & 0 deletions b/‎provider/deepgram/transcription/transcription.go‎
Lines changed: 179 additions & 0 deletions
diff --git a/‎provider/deepgram/transcription/transcription_test.go‎
Lines changed: 47 additions & 0 deletions b/‎provider/deepgram/transcription/transcription_test.go‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎provider/edge/speech/speech.go‎
Lines changed: 6 additions & 0 deletions b/‎provider/edge/speech/speech.go‎
Lines changed: 6 additions & 0 deletions
@@ -5,13 +5,14 @@ package speech
 
 import (
 	"context"
+	"fmt"
 	"strings"
 
 	sdk "github.com/memohai/twilight-ai/sdk"
 )
 
 const (
-	defaultModelID    = "cosyvoice-tts"
+	defaultModelID    = "cosyvoice-v1"
 	defaultBaseURL    = "wss://dashscope.aliyuncs.com/api-ws/v1/inference/"
 	defaultModel      = "cosyvoice-v1"
 	defaultFormat     = "mp3"
@@ -51,14 +52,22 @@ func New(opts ...Option) *Provider {
 // SpeechModel creates a SpeechModel bound to this provider.
 func (p *Provider) SpeechModel(id string) *sdk.SpeechModel {
 	if id == "" {
-		id = defaultModelID
+		id = defaultModel
 	}
 	return &sdk.SpeechModel{ID: id, Provider: p}
 }
 
+// ListModels returns the speech models exposed by this provider.
+func (p *Provider) ListModels(context.Context) ([]*sdk.SpeechModel, error) {
+	return nil, fmt.Errorf("alibabacloud speech: provider does not expose a remote models discovery API")
+}
+
 // DoSynthesize synthesizes speech and returns the complete audio bytes.
 func (p *Provider) DoSynthesize(ctx context.Context, params sdk.SpeechParams) (*sdk.SpeechResult, error) {
 	cfg := parseConfig(params.Config)
+	if params.Model != nil && params.Model.ID != "" {
+		cfg.Model = params.Model.ID
+	}
 
 	audio, err := p.client.synthesize(ctx, params.Text, &cfg)
 	if err != nil {
@@ -73,6 +82,9 @@ func (p *Provider) DoSynthesize(ctx context.Context, params sdk.SpeechParams) (*
 // DoStream synthesizes speech and returns a streaming result.
 func (p *Provider) DoStream(ctx context.Context, params sdk.SpeechParams) (*sdk.SpeechStreamResult, error) {
 	cfg := parseConfig(params.Config)
+	if params.Model != nil && params.Model.ID != "" {
+		cfg.Model = params.Model.ID
+	}
 
 	ch, errCh := p.client.stream(ctx, params.Text, &cfg)
 	return sdk.NewSpeechStreamResult(ch, contentTypeForFormat(cfg.Format), errCh), nil
 
@@ -163,6 +163,19 @@ func TestProvider_SpeechModel(t *testing.T) {
 	}
 }
 
+func TestProvider_ListModels(t *testing.T) {
+	t.Parallel()
+	p := New()
+
+	models, err := p.ListModels(context.Background())
+	if err == nil {
+		t.Fatal("expected unsupported error")
+	}
+	if len(models) != 0 {
+		t.Fatalf("len(models) = %d, want 0", len(models))
+	}
+}
+
 func TestParseConfig(t *testing.T) {
 	t.Parallel()
 	cfg := parseConfig(map[string]any{
 
@@ -763,7 +763,9 @@ type streamingBlock struct {
 
 func generateID() string {
 	b := make([]byte, 12)
-	rand.Read(b)
+	if _, err := rand.Read(b); err != nil {
+		panic("anthropic: generateID entropy failure: " + err.Error())
+	}
 	return fmt.Sprintf("toolu_%x", b)
 }
 
 
@@ -66,14 +66,22 @@ func New(opts ...Option) *Provider {
 // SpeechModel creates a SpeechModel bound to this provider.
 func (p *Provider) SpeechModel(id string) *sdk.SpeechModel {
 	if id == "" {
-		id = defaultModelID
+		id = defaultVoiceModel
 	}
 	return &sdk.SpeechModel{ID: id, Provider: p}
 }
 
+// ListModels returns the speech models exposed by this provider.
+func (p *Provider) ListModels(context.Context) ([]*sdk.SpeechModel, error) {
+	return nil, fmt.Errorf("deepgram speech: provider does not expose a remote models discovery API in this SDK")
+}
+
 // DoSynthesize synthesizes speech and returns the complete audio bytes.
 func (p *Provider) DoSynthesize(ctx context.Context, params sdk.SpeechParams) (*sdk.SpeechResult, error) {
 	cfg := parseConfig(params.Config)
+	if params.Model != nil && params.Model.ID != "" {
+		cfg.Model = params.Model.ID
+	}
 
 	body, err := p.doRequest(ctx, params.Text, cfg)
 	if err != nil {
@@ -94,6 +102,9 @@ func (p *Provider) DoSynthesize(ctx context.Context, params sdk.SpeechParams) (*
 // DoStream synthesizes speech and returns a streaming result backed by chunked HTTP body.
 func (p *Provider) DoStream(ctx context.Context, params sdk.SpeechParams) (*sdk.SpeechStreamResult, error) {
 	cfg := parseConfig(params.Config)
+	if params.Model != nil && params.Model.ID != "" {
+		cfg.Model = params.Model.ID
+	}
 
 	body, err := p.doRequest(ctx, params.Text, cfg)
 	if err != nil {
 
@@ -108,13 +108,26 @@ func TestProvider_DoSynthesize_ConnectionFailure(t *testing.T) {
 func TestProvider_SpeechModel(t *testing.T) {
 	t.Parallel()
 	p := New()
-	m := p.SpeechModel("deepgram-tts")
-	if m.ID != "deepgram-tts" {
+	m := p.SpeechModel("aura-2-orpheus-en")
+	if m.ID != "aura-2-orpheus-en" {
 		t.Errorf("ID = %q", m.ID)
 	}
 	m2 := p.SpeechModel("")
-	if m2.ID != defaultModelID {
-		t.Errorf("default ID = %q, want %q", m2.ID, defaultModelID)
+	if m2.ID != defaultVoiceModel {
+		t.Errorf("default ID = %q, want %q", m2.ID, defaultVoiceModel)
+	}
+}
+
+func TestProvider_ListModels(t *testing.T) {
+	t.Parallel()
+	p := New()
+
+	models, err := p.ListModels(context.Background())
+	if err == nil {
+		t.Fatal("expected unsupported error")
+	}
+	if len(models) != 0 {
+		t.Fatalf("len(models) = %d, want 0", len(models))
 	}
 }
 
 
@@ -0,0 +1,179 @@
+package transcription
+
+import (
+	"bytes"
+	"context"
+	"encoding/json"
+	"fmt"
+	"io"
+	"net/http"
+	"net/url"
+	"strings"
+
+	sdk "github.com/memohai/twilight-ai/sdk"
+)
+
+const (
+	defaultModelID = "nova-3"
+	defaultBaseURL = "https://api.deepgram.com"
+)
+
+type Option func(*Provider)
+
+func WithAPIKey(key string) Option { return func(p *Provider) { p.apiKey = key } }
+func WithBaseURL(baseURL string) Option {
+	return func(p *Provider) { p.baseURL = strings.TrimRight(baseURL, "/") }
+}
+func WithHTTPClient(hc *http.Client) Option { return func(p *Provider) { p.httpClient = hc } }
+
+type Provider struct {
+	apiKey     string
+	baseURL    string
+	httpClient *http.Client
+}
+
+func New(opts ...Option) *Provider {
+	p := &Provider{baseURL: defaultBaseURL, httpClient: &http.Client{}}
+	for _, opt := range opts {
+		opt(p)
+	}
+	return p
+}
+
+func (p *Provider) TranscriptionModel(id string) *sdk.TranscriptionModel {
+	if id == "" {
+		id = defaultModelID
+	}
+	return &sdk.TranscriptionModel{ID: id, Provider: p}
+}
+
+func (p *Provider) ListModels(context.Context) ([]*sdk.TranscriptionModel, error) {
+	return nil, fmt.Errorf("deepgram transcription: provider does not expose a remote models discovery API in this SDK")
+}
+
+type audioConfig struct {
+	Language    string
+	SmartFormat bool
+	DetectLang  bool
+	Diarize     bool
+	Punctuate   bool
+}
+
+func parseConfig(cfg map[string]any) audioConfig {
+	ac := audioConfig{SmartFormat: true, Punctuate: true}
+	if cfg == nil {
+		return ac
+	}
+	if v, ok := cfg["language"].(string); ok && v != "" {
+		ac.Language = v
+	}
+	if v, ok := cfg["smart_format"].(bool); ok {
+		ac.SmartFormat = v
+	}
+	if v, ok := cfg["detect_language"].(bool); ok {
+		ac.DetectLang = v
+	}
+	if v, ok := cfg["diarize"].(bool); ok {
+		ac.Diarize = v
+	}
+	if v, ok := cfg["punctuate"].(bool); ok {
+		ac.Punctuate = v
+	}
+	return ac
+}
+
+func (p *Provider) DoTranscribe(ctx context.Context, params sdk.TranscriptionParams) (*sdk.TranscriptionResult, error) {
+	cfg := parseConfig(params.Config)
+	modelID := defaultModelID
+	if params.Model != nil && params.Model.ID != "" {
+		modelID = params.Model.ID
+	}
+
+	u, err := url.Parse(p.baseURL + "/v1/listen")
+	if err != nil {
+		return nil, fmt.Errorf("deepgram transcription: parse URL: %w", err)
+	}
+	q := u.Query()
+	q.Set("model", modelID)
+	if cfg.Language != "" {
+		q.Set("language", cfg.Language)
+	}
+	if cfg.SmartFormat {
+		q.Set("smart_format", "true")
+	}
+	if cfg.DetectLang {
+		q.Set("detect_language", "true")
+	}
+	if cfg.Diarize {
+		q.Set("diarize", "true")
+	}
+	if cfg.Punctuate {
+		q.Set("punctuate", "true")
+	}
+	u.RawQuery = q.Encode()
+
+	req, err := http.NewRequestWithContext(ctx, http.MethodPost, u.String(), bytes.NewReader(params.Audio))
+	if err != nil {
+		return nil, fmt.Errorf("deepgram transcription: build request: %w", err)
+	}
+	if params.ContentType != "" {
+		req.Header.Set("Content-Type", params.ContentType)
+	} else {
+		req.Header.Set("Content-Type", "audio/wav")
+	}
+	req.Header.Set("Authorization", "Token "+p.apiKey)
+
+	resp, err := p.httpClient.Do(req)
+	if err != nil {
+		return nil, fmt.Errorf("deepgram transcription: request failed: %w", err)
+	}
+	defer resp.Body.Close()
+	if resp.StatusCode < 200 || resp.StatusCode >= 300 {
+		body, _ := io.ReadAll(resp.Body)
+		return nil, fmt.Errorf("deepgram transcription: unexpected status %d: %s", resp.StatusCode, string(body))
+	}
+
+	var payload struct {
+		Results struct {
+			Channels []struct {
+				DetectedLanguage string `json:"detected_language"`
+				Alternatives     []struct {
+					Transcript string `json:"transcript"`
+					Words      []struct {
+						Word    string  `json:"word"`
+						Start   float64 `json:"start"`
+						End     float64 `json:"end"`
+						Speaker int     `json:"speaker"`
+					} `json:"words"`
+				} `json:"alternatives"`
+			} `json:"channels"`
+		} `json:"results"`
+		Metadata struct {
+			Duration float64 `json:"duration"`
+		} `json:"metadata"`
+	}
+	if err := json.NewDecoder(resp.Body).Decode(&payload); err != nil {
+		return nil, fmt.Errorf("deepgram transcription: decode response: %w", err)
+	}
+	if len(payload.Results.Channels) == 0 || len(payload.Results.Channels[0].Alternatives) == 0 {
+		return nil, fmt.Errorf("deepgram transcription: empty transcript in response")
+	}
+	alt := payload.Results.Channels[0].Alternatives[0]
+	out := &sdk.TranscriptionResult{
+		Text:            alt.Transcript,
+		Language:        payload.Results.Channels[0].DetectedLanguage,
+		DurationSeconds: payload.Metadata.Duration,
+	}
+	if len(alt.Words) > 0 {
+		out.Words = make([]sdk.TranscriptionWord, 0, len(alt.Words))
+		for _, w := range alt.Words {
+			out.Words = append(out.Words, sdk.TranscriptionWord{
+				Text:      w.Word,
+				Start:     w.Start,
+				End:       w.End,
+				SpeakerID: fmt.Sprintf("speaker_%d", w.Speaker),
+			})
+		}
+	}
+	return out, nil
+}
@@ -0,0 +1,47 @@
+package transcription
+
+import (
+	"context"
+	"net/http"
+	"net/http/httptest"
+	"testing"
+
+	sdk "github.com/memohai/twilight-ai/sdk"
+)
+
+func TestProvider_ListModels(t *testing.T) {
+	t.Parallel()
+	p := New()
+	models, err := p.ListModels(context.Background())
+	if err == nil {
+		t.Fatal("expected unsupported error")
+	}
+	if len(models) != 0 {
+		t.Fatalf("len(models) = %d, want 0", len(models))
+	}
+}
+
+func TestProvider_DoTranscribe(t *testing.T) {
+	t.Parallel()
+	srv := httptest.NewServer(http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		if r.URL.Path != "/v1/listen" {
+			t.Fatalf("path = %s", r.URL.Path)
+		}
+		_, _ = w.Write([]byte(`{"metadata":{"duration":1.5},"results":{"channels":[{"detected_language":"en","alternatives":[{"transcript":"hello from deepgram","words":[{"word":"hello","start":0,"end":0.3,"speaker":0}]}]}]}}`))
+	}))
+	defer srv.Close()
+
+	p := New(WithAPIKey("key"), WithBaseURL(srv.URL))
+	result, err := p.DoTranscribe(context.Background(), sdk.TranscriptionParams{
+		Model:       p.TranscriptionModel("nova-3"),
+		Audio:       []byte("audio"),
+		Filename:    "test.wav",
+		ContentType: "audio/wav",
+	})
+	if err != nil {
+		t.Fatalf("DoTranscribe: %v", err)
+	}
+	if result.Text != "hello from deepgram" {
+		t.Fatalf("text = %q", result.Text)
+	}
+}
@@ -2,6 +2,7 @@ package speech
 
 import (
 	"context"
+	"fmt"
 	"strings"
 
 	sdk "github.com/memohai/twilight-ai/sdk"
@@ -47,6 +48,11 @@ func (p *Provider) SpeechModel(id string) *sdk.SpeechModel {
 	return &sdk.SpeechModel{ID: id, Provider: p}
 }
 
+// ListModels returns the speech models exposed by this provider.
+func (p *Provider) ListModels(context.Context) ([]*sdk.SpeechModel, error) {
+	return nil, fmt.Errorf("edge speech: provider does not expose a remote models discovery API")
+}
+
 // DoSynthesize synthesizes speech and returns the complete audio.
 func (p *Provider) DoSynthesize(ctx context.Context, params sdk.SpeechParams) (*sdk.SpeechResult, error) {
 	cfg := parseConfig(params.Config)
Original file line number	Diff line number	Diff line change
`@@ -763,7 +763,9 @@ type streamingBlock struct {`
`763`	`763`
`764`	`764`	`func generateID() string {`
`765`	`765`	`b := make([]byte, 12)`
`766`		`- rand.Read(b)`
	`766`	`+ if _, err := rand.Read(b); err != nil {`
	`767`	`+ panic("anthropic: generateID entropy failure: " + err.Error())`
	`768`	`+ }`
`767`	`769`	`return fmt.Sprintf("toolu_%x", b)`
`768`	`770`	`}`
`769`	`771`