add dataUrl and raise early

hanouticelina · hanouticelina · commit 7e186065792d · 2026-01-16T16:38:49.000+01:00
diff --git a/packages/inference/src/lib/makeRequestOptions.ts b/packages/inference/src/lib/makeRequestOptions.ts
@@ -1,6 +1,6 @@
 import { HF_HEADER_X_BILL_TO, HF_HUB_URL } from "../config.js";
 import { PACKAGE_NAME, PACKAGE_VERSION } from "../package.js";
-import type { InferenceTask, InferenceProviderMappingEntry, Options, RequestArgs } from "../types.js";
+import type { InferenceTask, InferenceProviderMappingEntry, Options, OutputType, RequestArgs } from "../types.js";
 import { getInferenceProviderMapping } from "./getInferenceProviderMapping.js";
 import type { getProviderHelper } from "./getProviderHelper.js";
 import { isUrl } from "./isUrl.js";
@@ -112,7 +112,7 @@ export function makeRequestOptionsFromResolvedModel(
 	mapping: InferenceProviderMappingEntry | undefined,
 	options?: Options & {
 		task?: InferenceTask;
-		outputType?: "url" | "blob" | "json";
+		outputType?: OutputType;
 	}
 ): { url: string; info: RequestInit } {
 	const { accessToken, endpointUrl, provider: maybeProvider, model, ...remainingArgs } = args;
diff --git a/packages/inference/src/providers/fal-ai.ts b/packages/inference/src/providers/fal-ai.ts
@@ -18,7 +18,7 @@ import { base64FromBytes } from "../utils/base64FromBytes.js";
 
 import type { AutomaticSpeechRecognitionOutput, ImageSegmentationOutput } from "@huggingface/tasks";
 import { isUrl } from "../lib/isUrl.js";
-import type { BodyParams, HeaderParams, InferenceTask, ModelId, RequestArgs, UrlParams } from "../types.js";
+import type { BodyParams, HeaderParams, InferenceTask, ModelId, OutputType, RequestArgs, UrlParams } from "../types.js";
 import { delay } from "../utils/delay.js";
 import { omit } from "../utils/omit.js";
 import type { ImageSegmentationTaskHelper, ImageToImageTaskHelper } from "./providerHelper.js";
@@ -199,7 +199,7 @@ export class FalAITextToImageTask extends FalAiQueueTask implements TextToImageT
 		response: FalAiQueueOutput,
 		url?: string,
 		headers?: Record<string, string>,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		const result = (await this.getResponseFromQueueApi(response, url, headers)) as FalAITextToImageOutput;
 		if (
@@ -218,7 +218,12 @@ export class FalAITextToImageTask extends FalAiQueueTask implements TextToImageT
 				return result.images[0].url;
 			}
 			const urlResponse = await fetch(result.images[0].url);
-			return await urlResponse.blob();
+			const blob = await urlResponse.blob();
+			if (outputType === "dataUrl") {
+				const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+				return `data:image/jpeg;base64,${b64}`;
+			}
+			return blob;
 		}
 
 		throw new InferenceClientProviderOutputError(
diff --git a/packages/inference/src/providers/hf-inference.ts b/packages/inference/src/providers/hf-inference.ts
@@ -38,7 +38,7 @@ import type {
 import { HF_ROUTER_URL } from "../config.js";
 import { InferenceClientInputError, InferenceClientProviderOutputError } from "../errors.js";
 import type { TabularClassificationOutput } from "../tasks/tabular/tabularClassification.js";
-import type { BodyParams, RequestArgs, UrlParams } from "../types.js";
+import type { BodyParams, OutputType, RequestArgs, UrlParams } from "../types.js";
 import { toArray } from "../utils/toArray.js";
 import type {
 	AudioClassificationTaskHelper,
@@ -123,11 +123,20 @@ export class HFInferenceTask extends TaskProviderHelper {
 }
 
 export class HFInferenceTextToImageTask extends HFInferenceTask implements TextToImageTaskHelper {
+	override preparePayload(params: BodyParams): Record<string, unknown> {
+		if (params.outputType === "url") {
+			throw new InferenceClientInputError(
+				"hf-inference provider does not support URL output. Use outputType 'blob', 'dataUrl' or 'json' instead."
+			);
+		}
+		return params.args;
+	}
+
 	override async getResponse(
 		response: Base64ImageGeneration | OutputUrlImageGeneration,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (!response) {
 			throw new InferenceClientProviderOutputError(
@@ -140,28 +149,29 @@ export class HFInferenceTextToImageTask extends HFInferenceTask implements TextT
 			}
 			if ("data" in response && Array.isArray(response.data) && response.data[0].b64_json) {
 				const base64Data = response.data[0].b64_json;
-				if (outputType === "url") {
-					throw new InferenceClientInputError(
-						"hf-inference provider does not support URL output for this model. Use outputType 'blob' or 'json' instead."
-					);
+				if (outputType === "dataUrl") {
+					return `data:image/jpeg;base64,${base64Data}`;
 				}
 				const base64Response = await fetch(`data:image/jpeg;base64,${base64Data}`);
 				return await base64Response.blob();
 			}
 			if ("output" in response && Array.isArray(response.output)) {
-				if (outputType === "url") {
-					return response.output[0];
+				if (outputType === "dataUrl") {
+					// Fetch the URL and convert to dataUrl
+					const urlResponse = await fetch(response.output[0]);
+					const blob = await urlResponse.blob();
+					const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+					return `data:image/jpeg;base64,${b64}`;
 				}
 				const urlResponse = await fetch(response.output[0]);
 				const blob = await urlResponse.blob();
 				return blob;
 			}
 		}
 		if (response instanceof Blob) {
-			if (outputType === "url") {
-				throw new InferenceClientInputError(
-					"hf-inference provider does not support URL output for this model. Use outputType 'blob' or 'json' instead."
-				);
+			if (outputType === "dataUrl") {
+				const b64 = await response.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+				return `data:image/jpeg;base64,${b64}`;
 			}
 			if (outputType === "json") {
 				const b64 = await response.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
diff --git a/packages/inference/src/providers/hyperbolic.ts b/packages/inference/src/providers/hyperbolic.ts
@@ -15,7 +15,7 @@
  * Thanks!
  */
 import type { ChatCompletionOutput, TextGenerationOutput } from "@huggingface/tasks";
-import type { BodyParams, UrlParams } from "../types.js";
+import type { BodyParams, OutputType, UrlParams } from "../types.js";
 import { omit } from "../utils/omit.js";
 import {
 	BaseConversationalTask,
@@ -93,6 +93,11 @@ export class HyperbolicTextToImageTask extends TaskProviderHelper implements Tex
 	}
 
 	preparePayload(params: BodyParams): Record<string, unknown> {
+		if (params.outputType === "url") {
+			throw new InferenceClientInputError(
+				"hyperbolic provider does not support URL output. Use outputType 'blob', 'dataUrl' or 'json' instead."
+			);
+		}
 		return {
 			...omit(params.args, ["inputs", "parameters"]),
 			...(params.args.parameters as Record<string, unknown>),
@@ -105,7 +110,7 @@ export class HyperbolicTextToImageTask extends TaskProviderHelper implements Tex
 		response: HyperbolicTextToImageOutput,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (
 			typeof response === "object" &&
@@ -117,10 +122,8 @@ export class HyperbolicTextToImageTask extends TaskProviderHelper implements Tex
 			if (outputType === "json") {
 				return { ...response };
 			}
-			if (outputType === "url") {
-				throw new InferenceClientInputError(
-					"hyperbolic provider does not support URL output. Use outputType 'blob' or 'json' instead."
-				);
+			if (outputType === "dataUrl") {
+				return `data:image/jpeg;base64,${response.images[0].image}`;
 			}
 			return fetch(`data:image/jpeg;base64,${response.images[0].image}`).then((res) => res.blob());
 		}
diff --git a/packages/inference/src/providers/nebius.ts b/packages/inference/src/providers/nebius.ts
@@ -15,7 +15,7 @@
  * Thanks!
  */
 import type { FeatureExtractionOutput, TextGenerationOutput } from "@huggingface/tasks";
-import type { BodyParams } from "../types.js";
+import type { BodyParams, OutputType } from "../types.js";
 import { omit } from "../utils/omit.js";
 import {
 	BaseConversationalTask,
@@ -117,7 +117,7 @@ export class NebiusTextToImageTask extends TaskProviderHelper implements TextToI
 		response: NebiusImageGeneration,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (
 			typeof response === "object" &&
@@ -135,6 +135,9 @@ export class NebiusTextToImageTask extends TaskProviderHelper implements TextToI
 
 			if ("b64_json" in response.data[0] && typeof response.data[0].b64_json === "string") {
 				const base64Data = response.data[0].b64_json;
+				if (outputType === "dataUrl") {
+					return `data:image/jpeg;base64,${base64Data}`;
+				}
 				return fetch(`data:image/jpeg;base64,${base64Data}`).then((res) => res.blob());
 			}
 		}
diff --git a/packages/inference/src/providers/nscale.ts b/packages/inference/src/providers/nscale.ts
@@ -15,7 +15,7 @@
  * Thanks!
  */
 import type { TextToImageInput } from "@huggingface/tasks";
-import type { BodyParams } from "../types.js";
+import type { BodyParams, OutputType } from "../types.js";
 import { omit } from "../utils/omit.js";
 import { BaseConversationalTask, TaskProviderHelper, type TextToImageTaskHelper } from "./providerHelper.js";
 import { InferenceClientInputError, InferenceClientProviderOutputError } from "../errors.js";
@@ -40,6 +40,11 @@ export class NscaleTextToImageTask extends TaskProviderHelper implements TextToI
 	}
 
 	preparePayload(params: BodyParams<TextToImageInput>): Record<string, unknown> {
+		if (params.outputType === "url") {
+			throw new InferenceClientInputError(
+				"nscale provider does not support URL output. Use outputType 'blob', 'dataUrl' or 'json' instead."
+			);
+		}
 		return {
 			...omit(params.args, ["inputs", "parameters"]),
 			...params.args.parameters,
@@ -57,7 +62,7 @@ export class NscaleTextToImageTask extends TaskProviderHelper implements TextToI
 		response: NscaleCloudBase64ImageGeneration,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (
 			typeof response === "object" &&
@@ -71,10 +76,8 @@ export class NscaleTextToImageTask extends TaskProviderHelper implements TextToI
 				return { ...response };
 			}
 			const base64Data = response.data[0].b64_json;
-			if (outputType === "url") {
-				throw new InferenceClientInputError(
-					"nscale provider does not support URL output. Use outputType 'blob' or 'json' instead."
-				);
+			if (outputType === "dataUrl") {
+				return `data:image/jpeg;base64,${base64Data}`;
 			}
 			return fetch(`data:image/jpeg;base64,${base64Data}`).then((res) => res.blob());
 		}
diff --git a/packages/inference/src/providers/providerHelper.ts b/packages/inference/src/providers/providerHelper.ts
@@ -51,7 +51,7 @@ import type {
 import { HF_ROUTER_URL } from "../config.js";
 import { InferenceClientProviderOutputError, InferenceClientRoutingError } from "../errors.js";
 import type { AudioToAudioOutput } from "../tasks/audio/audioToAudio.js";
-import type { BaseArgs, BodyParams, HeaderParams, InferenceProvider, RequestArgs, UrlParams } from "../types.js";
+import type { BaseArgs, BodyParams, HeaderParams, InferenceProvider, OutputType, RequestArgs, UrlParams } from "../types.js";
 import { toArray } from "../utils/toArray.js";
 import type { ImageToImageArgs } from "../tasks/cv/imageToImage.js";
 import type { AutomaticSpeechRecognitionArgs } from "../tasks/audio/automaticSpeechRecognition.js";
@@ -78,7 +78,7 @@ export abstract class TaskProviderHelper {
 		response: unknown,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob"
+		outputType?: OutputType
 	): Promise<unknown>;
 
 	/**
@@ -141,7 +141,7 @@ export interface TextToImageTaskHelper {
 		response: unknown,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>>;
 	preparePayload(params: BodyParams<TextToImageInput & BaseArgs>): Record<string, unknown>;
 }
diff --git a/packages/inference/src/providers/replicate.ts b/packages/inference/src/providers/replicate.ts
@@ -16,7 +16,7 @@
  */
 import { InferenceClientProviderOutputError } from "../errors.js";
 import { isUrl } from "../lib/isUrl.js";
-import type { BodyParams, HeaderParams, RequestArgs, UrlParams } from "../types.js";
+import type { BodyParams, HeaderParams, OutputType, RequestArgs, UrlParams } from "../types.js";
 import { omit } from "../utils/omit.js";
 import {
 	TaskProviderHelper,
@@ -91,7 +91,7 @@ export class ReplicateTextToImageTask extends ReplicateTask implements TextToIma
 		res: ReplicateOutput | Blob,
 		url?: string,
 		headers?: Record<string, string>,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		void url;
 		void headers;
@@ -105,7 +105,12 @@ export class ReplicateTextToImageTask extends ReplicateTask implements TextToIma
 				return res.output;
 			}
 			const urlResponse = await fetch(res.output);
-			return await urlResponse.blob();
+			const blob = await urlResponse.blob();
+			if (outputType === "dataUrl") {
+				const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+				return `data:image/jpeg;base64,${b64}`;
+			}
+			return blob;
 		}
 
 		// Handle array output
@@ -123,7 +128,12 @@ export class ReplicateTextToImageTask extends ReplicateTask implements TextToIma
 				return res.output[0];
 			}
 			const urlResponse = await fetch(res.output[0]);
-			return await urlResponse.blob();
+			const blob = await urlResponse.blob();
+			if (outputType === "dataUrl") {
+				const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+				return `data:image/jpeg;base64,${b64}`;
+			}
+			return blob;
 		}
 
 		throw new InferenceClientProviderOutputError("Received malformed response from Replicate text-to-image API");
diff --git a/packages/inference/src/providers/together.ts b/packages/inference/src/providers/together.ts
@@ -15,7 +15,7 @@
  * Thanks!
  */
 import type { ChatCompletionOutput, TextGenerationOutput, TextGenerationOutputFinishReason } from "@huggingface/tasks";
-import type { BodyParams } from "../types.js";
+import type { BodyParams, OutputType } from "../types.js";
 import { omit } from "../utils/omit.js";
 import {
 	BaseConversationalTask,
@@ -119,7 +119,7 @@ export class TogetherTextToImageTask extends TaskProviderHelper implements TextT
 		response: TogetherImageGeneration,
 		url?: string,
 		headers?: HeadersInit,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (
 			typeof response === "object" &&
@@ -137,6 +137,9 @@ export class TogetherTextToImageTask extends TaskProviderHelper implements TextT
 
 			if ("b64_json" in response.data[0] && typeof response.data[0].b64_json === "string") {
 				const base64Data = response.data[0].b64_json;
+				if (outputType === "dataUrl") {
+					return `data:image/jpeg;base64,${base64Data}`;
+				}
 				return fetch(`data:image/jpeg;base64,${base64Data}`).then((res) => res.blob());
 			}
 		}
diff --git a/packages/inference/src/providers/wavespeed.ts b/packages/inference/src/providers/wavespeed.ts
@@ -2,7 +2,7 @@ import type { TextToImageArgs } from "../tasks/cv/textToImage.js";
 import type { ImageToImageArgs } from "../tasks/cv/imageToImage.js";
 import type { TextToVideoArgs } from "../tasks/cv/textToVideo.js";
 import type { ImageToVideoArgs } from "../tasks/cv/imageToVideo.js";
-import type { BodyParams, RequestArgs, UrlParams } from "../types.js";
+import type { BodyParams, OutputType, RequestArgs, UrlParams } from "../types.js";
 import { delay } from "../utils/delay.js";
 import { omit } from "../utils/omit.js";
 import { base64FromBytes } from "../utils/base64FromBytes.js";
@@ -116,7 +116,7 @@ abstract class WavespeedAITask extends TaskProviderHelper {
 		response: WaveSpeedAISubmitTaskResponse,
 		url?: string,
 		headers?: Record<string, string>,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (!url || !headers) {
 			throw new InferenceClientInputError("Headers are required for WaveSpeed AI API calls");
@@ -179,7 +179,12 @@ abstract class WavespeedAITask extends TaskProviderHelper {
 							}
 						);
 					}
-					return await mediaResponse.blob();
+					const blob = await mediaResponse.blob();
+					if (outputType === "dataUrl") {
+						const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+						return `data:image/jpeg;base64,${b64}`;
+					}
+					return blob;
 				}
 				case "failed": {
 					throw new InferenceClientProviderOutputError(taskResult.error || "Task failed");
diff --git a/packages/inference/src/providers/zai-org.ts b/packages/inference/src/providers/zai-org.ts
@@ -20,7 +20,7 @@ import {
 	InferenceClientProviderOutputError,
 } from "../errors.js";
 import { isUrl } from "../lib/isUrl.js";
-import type { BodyParams, HeaderParams } from "../types.js";
+import type { BodyParams, HeaderParams, OutputType } from "../types.js";
 import { delay } from "../utils/delay.js";
 import { omit } from "../utils/omit.js";
 import { BaseConversationalTask, TaskProviderHelper, type TextToImageTaskHelper } from "./providerHelper.js";
@@ -96,7 +96,7 @@ export class ZaiTextToImageTask extends TaskProviderHelper implements TextToImag
 		response: ZaiTextToImageResponse,
 		url?: string,
 		headers?: Record<string, string>,
-		outputType?: "url" | "blob" | "json"
+		outputType?: OutputType
 	): Promise<string | Blob | Record<string, unknown>> {
 		if (!url || !headers) {
 			throw new InferenceClientInputError(`URL and headers are required for 'text-to-image' task`);
@@ -179,7 +179,12 @@ export class ZaiTextToImageTask extends TaskProviderHelper implements TextToImag
 				}
 
 				const imageResponse = await fetch(imageUrl);
-				return await imageResponse.blob();
+				const blob = await imageResponse.blob();
+				if (outputType === "dataUrl") {
+					const b64 = await blob.arrayBuffer().then((buf) => Buffer.from(buf).toString("base64"));
+					return `data:image/jpeg;base64,${b64}`;
+				}
+				return blob;
 			}
 		}
 
diff --git a/packages/inference/src/tasks/cv/textToImage.ts b/packages/inference/src/tasks/cv/textToImage.ts
diff --git a/packages/inference/src/types.ts b/packages/inference/src/types.ts