WqyJh
diff --git a/‎api.go‎
Lines changed: 16 additions & 46 deletions b/‎api.go‎
Lines changed: 16 additions & 46 deletions
diff --git a/‎api_integration_test.go‎
Lines changed: 67 additions & 40 deletions b/‎api_integration_test.go‎
Lines changed: 67 additions & 40 deletions
@@ -9,65 +9,35 @@ import (
 	"net/http"
 )
 
-type CreateSessionRequest struct {
-	ClientSession
-
-	// The Realtime model used for this session.
-	Model string `json:"model"`
-}
-
 type ClientSecret struct {
 	// Ephemeral key usable in client environments to authenticate connections to the Realtime API. Use this in client-side environments rather than a standard API token, which should only be used server-side.
 	Value string `json:"value"`
 	// Timestamp for when the token expires. Currently, all tokens expire after one minute.
 	ExpiresAt int64 `json:"expires_at"`
 }
 
-type CreateSessionResponse struct {
-	ServerSession
+type ExpiresAfter struct {
+	// The anchor point for the client secret expiration, meaning that seconds will be added to the created_at time of the client secret to produce an expiration timestamp. Only created_at is currently supported.
+	Anchor string `json:"anchor,omitzero"`
 
-	// Ephemeral key returned by the API.
-	ClientSecret ClientSecret `json:"client_secret"`
+	// The number of seconds from the anchor point to the expiration. Select a value between 10 and 7200 (2 hours). This default to 600 seconds (10 minutes) if not specified.
+	Seconds int `json:"seconds,omitzero"`
 }
 
-// CreateTranscriptionSessionRequest is the request for creating a transcription session.
-type CreateTranscriptionSessionRequest struct {
-	// The set of items to include in the transcription.
-	Include []string `json:"include,omitempty"`
-	// The format of input audio. Options are "pcm16", "g711_ulaw", or "g711_alaw".
-	InputAudioFormat AudioFormat `json:"input_audio_format,omitempty"`
-	// Configuration for input audio noise reduction.
-	InputAudioNoiseReduction *InputAudioNoiseReduction `json:"input_audio_noise_reduction,omitempty"`
-	// Configuration for input audio transcription.
-	InputAudioTranscription *InputAudioTranscription `json:"input_audio_transcription,omitempty"`
-
-	// Attention: Keep this field empty! It's shocking that this field is documented but not supported.
-	// You may get error of "Unknown parameter: 'modalities'." if this field is not empty.
-	// Issue reported: https://community.openai.com/t/unknown-parameter-modalities-when-creating-transcriptionsessions/1150141/6
-	// Docs: https://platform.openai.com/docs/api-reference/realtime-sessions/create-transcription#realtime-sessions-create-transcription-modalities
-	// The set of modalities the model can respond with. To disable audio, set this to ["text"].
-	Modalities []Modality `json:"modalities,omitempty"`
-
-	// Configuration for turn detection.
-	TurnDetection *ClientTurnDetection `json:"turn_detection,omitempty"`
+type CreateClientSecretRequest struct {
+	// Configuration for the client secret expiration. Expiration refers to the time after which a client secret will no longer be valid for creating sessions. The session itself may continue after that time once started. A secret can be used to create multiple sessions until it expires.
+	ExpiresAfter ExpiresAfter `json:"expires_after,omitzero"`
+
+	// Session configuration to use for the client secret. Choose either a realtime session or a transcription session.
+	Session SessionUnion `json:"session,omitzero"`
 }
 
-// CreateTranscriptionSessionResponse is the response from creating a transcription session.
-type CreateTranscriptionSessionResponse struct {
-	// The unique ID of the session.
-	ID string `json:"id"`
-	// The object type, must be "realtime.transcription_session".
-	Object string `json:"object"`
-	// The format of input audio.
-	InputAudioFormat AudioFormat `json:"input_audio_format,omitempty"`
-	// Configuration of the transcription model.
-	InputAudioTranscription *InputAudioTranscription `json:"input_audio_transcription,omitempty"`
-	// The set of modalities.
-	Modalities []Modality `json:"modalities,omitempty"`
-	// Configuration for turn detection.
-	TurnDetection *ServerTurnDetection `json:"turn_detection,omitempty"`
+type CreateClientSecretResponse struct {
 	// Ephemeral key returned by the API.
-	ClientSecret ClientSecret `json:"client_secret"`
+	ClientSecret
+
+	// Session configuration to use for the client secret. Choose either a realtime session or a transcription session.
+	Session SessionUnion `json:"session,omitzero"`
 }
 
 type OpenAIError struct {
 
@@ -9,27 +9,40 @@ import (
 	"github.com/stretchr/testify/require"
 )
 
-func TestCreateSession(t *testing.T) {
+func TestCreateRealtimeSession(t *testing.T) {
 	key := os.Getenv("OPENAI_API_KEY")
 	if key == "" {
 		t.Skip("OPENAI_API_KEY is not set")
 	}
-	client := openairt.NewClient(key)
-	session, err := client.CreateSession(context.Background(), &openairt.CreateSessionRequest{
-		Model: openairt.GPT4oRealtimePreview20241217,
-		ClientSession: openairt.ClientSession{
-			Modalities: []openairt.Modality{
-				openairt.ModalityAudio,
-				openairt.ModalityText,
+	config := openairt.DefaultConfig(key)
+	if baseUrl := os.Getenv("OPENAI_BASE_URL"); baseUrl != "" {
+		config.BaseURL = baseUrl
+	}
+	client := openairt.NewClientWithConfig(config)
+	session, err := client.CreateClientSecret(context.Background(), &openairt.CreateClientSecretRequest{
+		ExpiresAfter: openairt.ExpiresAfter{
+			Anchor:  "created_at",
+			Seconds: 600,
+		},
+		Session: openairt.SessionUnion{
+			Realtime: &openairt.RealtimeSession{
+				Model: openairt.GPTRealtime20250828,
+				// If you specify ["audio", "text"], you'll get error `Invalid modalities: ['audio', 'text']. Supported combinations are: ['text'] and ['audio'].`
+				// That's because Realtime API GA no longer accepts both text and audio for the parameter.
+				// Just passing ["audio"] and you can receive transcription of the input/output audio
+				// See https://github.com/openai/openai-agents-python/issues/1771#issuecomment-3317018366.
+				// OutputModalities: []openairt.Modality{
+				// 	openairt.ModalityAudio,
+				// },
+				Instructions: "You are a friendly assistant.",
 			},
-			Instructions: "You are a friendly assistant.",
 		},
 	})
 	require.NoError(t, err)
 	require.NotEmpty(t, session.ClientSecret.Value)
 	require.NotZero(t, session.ClientSecret.ExpiresAt)
-	require.Equal(t, openairt.GPT4oRealtimePreview20241217, session.Model)
-	require.Equal(t, "You are a friendly assistant.", session.Instructions)
+	require.Equal(t, openairt.GPTRealtime20250828, session.Session.Realtime.Model)
+	require.Equal(t, "You are a friendly assistant.", session.Session.Realtime.Instructions)
 	t.Logf("session: %+v", session)
 }
 
@@ -38,41 +51,55 @@ func TestCreateTranscriptionSession(t *testing.T) {
 	if key == "" {
 		t.Skip("OPENAI_API_KEY is not set")
 	}
-	client := openairt.NewClient(key)
-	session, err := client.CreateTranscriptionSession(context.Background(), &openairt.CreateTranscriptionSessionRequest{
-		InputAudioFormat: openairt.AudioFormatPcm16,
-		InputAudioTranscription: &openairt.InputAudioTranscription{
-			Model:    openairt.GPT4oTranscribe,
-			Language: "en",
-		},
-		InputAudioNoiseReduction: &openairt.InputAudioNoiseReduction{
-			Type: openairt.NearFieldNoiseReduction,
+	config := openairt.DefaultConfig(key)
+	if baseUrl := os.Getenv("OPENAI_BASE_URL"); baseUrl != "" {
+		config.BaseURL = baseUrl
+	}
+	client := openairt.NewClientWithConfig(config)
+	session, err := client.CreateClientSecret(context.Background(), &openairt.CreateClientSecretRequest{
+		ExpiresAfter: openairt.ExpiresAfter{
+			Anchor:  "created_at",
+			Seconds: 600,
 		},
-		// Attention: Keep this field empty! It's shocking that this field is documented but not supported.
-		// Modalities: []openairt.Modality{
-		// 	openairt.ModalityText,
-		// },
-		TurnDetection: &openairt.ClientTurnDetection{
-			Type: openairt.ClientTurnDetectionTypeServerVad,
-			TurnDetectionParams: openairt.TurnDetectionParams{
-				Threshold:         0.6,
-				PrefixPaddingMs:   300,
-				SilenceDurationMs: 500,
+		Session: openairt.SessionUnion{
+			Transcription: &openairt.TranscriptionSession{
+				Audio: openairt.TranscriptionSessionAudio{
+					Input: &openairt.SessionAudioInput{
+						Format: openairt.AudioFormatUnion{
+							PCM: &openairt.AudioFormatPCM{
+								Rate: 24000,
+							},
+						},
+						Transcription: openairt.AudioTranscription{
+							Model:    openairt.GPT4oTranscribe,
+							Language: "en",
+						},
+						NoiseReduction: openairt.AudioNoiseReduction{
+							Type: openairt.NoiseReductionNearField,
+						},
+						TurnDetection: openairt.TurnDetectionUnion{
+							ServerVad: &openairt.ServerVad{
+								Threshold:         0.6,
+								PrefixPaddingMs:   300,
+								SilenceDurationMs: 500,
+							},
+						},
+					},
+				},
 			},
 		},
-		Include: []string{},
 	})
 	require.NoError(t, err)
 	require.NotEmpty(t, session.ClientSecret.Value)
 	require.NotZero(t, session.ClientSecret.ExpiresAt)
-	require.Equal(t, "realtime.transcription_session", session.Object)
-	require.Equal(t, openairt.AudioFormatPcm16, session.InputAudioFormat)
-	require.Equal(t, openairt.GPT4oTranscribe, session.InputAudioTranscription.Model)
-	require.Equal(t, "en", session.InputAudioTranscription.Language)
-	require.Equal(t, openairt.ServerTurnDetectionTypeServerVad, session.TurnDetection.Type)
-	require.InEpsilon(t, 0.6, session.TurnDetection.Threshold, 0.0001)
-	require.Equal(t, 300, session.TurnDetection.PrefixPaddingMs)
-	require.Equal(t, 500, session.TurnDetection.SilenceDurationMs)
-	require.Empty(t, session.Modalities)
+	require.Equal(t, "realtime.transcription_session", session.Session.Transcription.Object)
+	require.Equal(t, int(24000), session.Session.Transcription.Audio.Input.Format.PCM.Rate)
+	require.Equal(t, openairt.GPT4oTranscribe, session.Session.Transcription.Audio.Input.Transcription.Model)
+	require.Equal(t, "en", session.Session.Transcription.Audio.Input.Transcription.Language)
+	require.NotNil(t, session.Session.Transcription.Audio.Input.TurnDetection.ServerVad)
+	require.Nil(t, session.Session.Transcription.Audio.Input.TurnDetection.SemanticVad)
+	require.InEpsilon(t, 0.6, session.Session.Transcription.Audio.Input.TurnDetection.ServerVad.Threshold, 0.0001)
+	require.Equal(t, int64(300), session.Session.Transcription.Audio.Input.TurnDetection.ServerVad.PrefixPaddingMs)
+	require.Equal(t, int64(500), session.Session.Transcription.Audio.Input.TurnDetection.ServerVad.SilenceDurationMs)
 	t.Logf("transcription session: %+v", session)
 }