[Feature][Transform-v2] Add support for Zhipu AI in Embedding and LLM module (#8790)

xiaochen-zhou · web-flow · commit 51ffc5a97e4f · 2025-02-25T10:47:29.000+08:00
diff --git a/docs/en/transform-v2/embedding.md b/docs/en/transform-v2/embedding.md
@@ -10,20 +10,21 @@ different API endpoints.
 
 ## Options
 
-| Name                           | Type   | Required | Default Value | Description                                                                                                 |
-|--------------------------------|--------|----------|---------------|-------------------------------------------------------------------------------------------------------------|
-| model_provider                 | enum   | yes      | -             | The model provider for embedding. Options may include `QIANFAN`, `OPENAI`, etc.                             |
-| api_key                        | string | yes      | -             | The API key required to authenticate with the embedding service.                                            |
-| secret_key                     | string | yes      | -             | The secret key required for additional authentication with the embedding service.                           |
-| single_vectorized_input_number | int    | no       | 1             | The number of inputs vectorized in one request. Default is 1.                                               |
-| vectorization_fields           | map    | yes      | -             | A mapping between input fields and their corresponding output vector fields.                                |
-| model                          | string | yes      | -             | The specific model to use for embedding (e.g: `text-embedding-3-small` for OPENAI).                         |
-| api_path                       | string | no       | -             | The API endpoint for the embedding service. Typically provided by the model provider.                       |
-| oauth_path                     | string | no       | -             | The API endpoint for the oauth service.                                                                     |
-| custom_config                  | map    | no       |               | Custom configurations for the model.                                                                        |
-| custom_response_parse          | string | no       |               | Specifies how to parse the response from the model using JsonPath. Example: `$.choices[*].message.content`. |
-| custom_request_headers         | map    | no       |               | Custom headers for the request to the model.                                                                |
-| custom_request_body            | map    | no       |               | Custom body for the request. Supports placeholders like `${model}`, `${input}`.                             |
+| Name                             | Type   | Required | Default Value | Description                                                                                                                                                             |
+|----------------------------------|--------|----------|---------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+| model_provider                   | enum   | yes      | -             | The model provider for embedding. Options may include `QIANFAN`, `OPENAI`, etc.                                                                                         |
+| api_key                          | string | yes      | -             | The API key required to authenticate with the embedding service.                                                                                                        |
+| secret_key                       | string | yes      | -             | The secret key required for additional authentication with the embedding service.                                                                                       |
+| single_vectorized_input_number   | int    | no       | 1             | The number of inputs vectorized in one request. Default is 1.                                                                                                           |
+| vectorization_fields             | map    | yes      | -             | A mapping between input fields and their corresponding output vector fields.                                                                                            |
+| model                            | string | yes      | -             | The specific model to use for embedding (e.g: `text-embedding-3-small` for OPENAI).                                                                                     |
+| api_path                         | string | no       | -             | The API endpoint for the embedding service. Typically provided by the model provider.                                                                                   |
+| dimension                        | int    | no       | -             | TThe vector dimension defaults to 2048. The Embedding-3 model supports custom vector dimensions, and it is recommended to choose dimensions of 256, 512, 1024, or 2048. |
+| oauth_path                       | string | no       | -             | The API endpoint for the oauth service.                                                                                                                                 |
+| custom_config                    | map    | no       |               | Custom configurations for the model.                                                                                                                                    |
+| custom_response_parse            | string | no       |               | Specifies how to parse the response from the model using JsonPath. Example: `$.choices[*].message.content`.                                                             |
+| custom_request_headers           | map    | no       |               | Custom headers for the request to the model.                                                                                                                            |
+| custom_request_body              | map    | no       |               | Custom body for the request. Supports placeholders like `${model}`, `${input}`.                                                                                         |
 
 ### model_provider
 
diff --git a/docs/en/transform-v2/llm.md b/docs/en/transform-v2/llm.md
@@ -28,7 +28,7 @@ more.
 ### model_provider
 
 The model provider to use. The available options are:
-OPENAI, DOUBAO, DEEPSEEK, KIMIAI, MICROSOFT, CUSTOM
+OPENAI, DOUBAO, DEEPSEEK, KIMIAI, MICROSOFT, ZHIPU, CUSTOM
 
 > tips: If you use Microsoft, please make sure api_path cannot be empty
 
diff --git a/docs/zh/transform-v2/embedding.md b/docs/zh/transform-v2/embedding.md
@@ -8,20 +8,21 @@
 
 ## 配置选项
 
-| 名称                             | 类型     | 是否必填 | 默认值 | 描述                                                               |
-|--------------------------------|--------|------|-----|------------------------------------------------------------------|
-| model_provider                 | enum   | 是    | -   | embedding模型的提供商。可选项包括 `QIANFAN`、`OPENAI` 等。                      |
-| api_key                        | string | 是    | -   | 用于验证embedding服务的API密钥。                                           |
-| secret_key                     | string | 是    | -   | 用于额外验证的密钥。一些提供商可能需要此密钥进行安全的API请求。                                |
-| single_vectorized_input_number | int    | 否    | 1   | 单次请求向量化的输入数量。默认值为1。                                              |
-| vectorization_fields           | map    | 是    | -   | 输入字段和相应的输出向量字段之间的映射。                                             |
-| model                          | string | 是    | -   | 要使用的具体embedding模型。例如，如果提供商为OPENAI，可以指定 `text-embedding-3-small`。 |
-| api_path                       | string | 否    | -   | embedding服务的API。通常由模型提供商提供。                                      |
-| oauth_path                     | string | 否    | -   | oauth 服务的 API 。                                                  |
-| custom_config                  | map    | 否    |     | 模型的自定义配置。                                                        |
-| custom_response_parse          | string | 否    |     | 使用 JsonPath 解析模型响应的方式。示例：`$.choices[*].message.content`。         |
-| custom_request_headers         | map    | 否    |     | 发送到模型的请求的自定义头信息。                                                 |
-| custom_request_body            | map    | 否    |     | 请求体的自定义配置。支持占位符如 `${model}`、`${input}`。                          |
+| 名称                               | 类型     | 是否必填 | 默认值    | 描述                                                                 |
+|----------------------------------|--------|------|--------|--------------------------------------------------------------------|
+| model_provider                   | enum   | 是    | -      | embedding模型的提供商。可选项包括 `QIANFAN`、`OPENAI` 等。                        |
+| api_key                          | string | 是    | -      | 用于验证embedding服务的API密钥。                                             |
+| secret_key                       | string | 是    | -      | 用于额外验证的密钥。一些提供商可能需要此密钥进行安全的API请求。                                  |
+| single_vectorized_input_number   | int    | 否    | 1      | 单次请求向量化的输入数量。默认值为1。                                                |
+| vectorization_fields             | map    | 是    | -      | 输入字段和相应的输出向量字段之间的映射。                                               |
+| model                            | string | 是    | -      | 要使用的具体embedding模型。例如，如果提供商为OPENAI，可以指定 `text-embedding-3-small`。   |
+| api_path                         | string | 否    | -      | embedding服务的API。通常由模型提供商提供。                                        |
+| dimension                        | int    | 否    | 2048   | 向量维度默认为 2048，Embedding-3模型支持自定义向量维度，建议选择256、512、1024或2048维度。       |
+| oauth_path                       | string | 否    | -      | oauth 服务的 API 。                                                    |
+| custom_config                    | map    | 否    |        | 模型的自定义配置。                                                          |
+| custom_response_parse            | string | 否    |        | 使用 JsonPath 解析模型响应的方式。示例：`$.choices[*].message.content`。           |
+| custom_request_headers           | map    | 否    |        | 发送到模型的请求的自定义头信息。                                                   |
+| custom_request_body              | map    | 否    |        | 请求体的自定义配置。支持占位符如 `${model}`、`${input}`。                            |
 
 ### embedding_model_provider
 
diff --git a/docs/zh/transform-v2/llm.md b/docs/zh/transform-v2/llm.md
@@ -26,7 +26,7 @@
 ### model_provider
 
 要使用的模型提供者。可用选项为:
-OPENAI,DOUBAO,DEEPSEEK,KIMIAI,MICROSOFT, CUSTOM
+OPENAI,DOUBAO,DEEPSEEK,KIMIAI,MICROSOFT, ZHIPU, CUSTOM
 
 > tips: 如果使用 Microsoft, 请确保 api_path 配置不能为空
 
diff --git a/seatunnel-transforms-v2/pom.xml b/seatunnel-transforms-v2/pom.xml
@@ -32,6 +32,8 @@
     <properties>
         <httpclient.version>4.5.13</httpclient.version>
         <httpcore.version>4.4.4</httpcore.version>
+        <mockwebserver.version>3.6.0</mockwebserver.version>
+        <zhipu.version>release-V4-2.3.0</zhipu.version>
     </properties>
 
     <dependencyManagement>
@@ -95,7 +97,7 @@
         <dependency>
             <groupId>com.squareup.okhttp3</groupId>
             <artifactId>mockwebserver</artifactId>
-            <version>3.6.0</version>
+            <version>${mockwebserver.version}</version>
             <scope>test</scope>
         </dependency>
     </dependencies>
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/ModelProvider.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/ModelProvider.java
@@ -28,6 +28,9 @@ public enum ModelProvider {
     KIMIAI("https://api.moonshot.cn/v1/chat/completions", ""),
     DEEPSEEK("https://api.deepseek.com/chat/completions", ""),
     MICROSOFT("", ""),
+    ZHIPU(
+            "https://open.bigmodel.cn/api/paas/v4/chat/completions",
+            "https://open.bigmodel.cn/api/paas/v4/embeddings"),
     CUSTOM("", ""),
     LOCAL("", "");
 
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/ModelTransformConfig.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/ModelTransformConfig.java
@@ -79,6 +79,9 @@ public class ModelTransformConfig implements Serializable {
                     .withFallbackKeys("inference_batch_size")
                     .withDescription("The row batch size of each process");
 
+    public static final Option<Integer> DIMENSION =
+            Options.key("dimension").intType().defaultValue(2048).withDescription("dimension");
+
     public static class CustomRequestConfig {
 
         // Custom response parsing
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/EmbeddingTransform.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/EmbeddingTransform.java
@@ -33,6 +33,7 @@
 import org.apache.seatunnel.transform.nlpmodel.embedding.remote.doubao.DoubaoModel;
 import org.apache.seatunnel.transform.nlpmodel.embedding.remote.openai.OpenAIModel;
 import org.apache.seatunnel.transform.nlpmodel.embedding.remote.qianfan.QianfanModel;
+import org.apache.seatunnel.transform.nlpmodel.embedding.remote.zhipu.ZhipuModel;
 import org.apache.seatunnel.transform.nlpmodel.llm.LLMTransformConfig;
 
 import lombok.NonNull;
@@ -136,6 +137,18 @@ public void open() {
                                             EmbeddingTransformConfig
                                                     .SINGLE_VECTORIZED_INPUT_NUMBER));
                     break;
+                case ZHIPU:
+                    model =
+                            new ZhipuModel(
+                                    config.get(ModelTransformConfig.API_KEY),
+                                    config.get(ModelTransformConfig.MODEL),
+                                    provider.usedEmbeddingPath(
+                                            config.get(ModelTransformConfig.API_PATH)),
+                                    config.get(ModelTransformConfig.DIMENSION),
+                                    config.get(
+                                            EmbeddingTransformConfig
+                                                    .SINGLE_VECTORIZED_INPUT_NUMBER));
+                    break;
                 case LOCAL:
                 default:
                     throw new IllegalArgumentException("Unsupported model provider: " + provider);
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/EmbeddingTransformFactory.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/EmbeddingTransformFactory.java
@@ -62,6 +62,10 @@ public OptionRule optionRule() {
                         LLMTransformConfig.MODEL_PROVIDER,
                         ModelProvider.CUSTOM,
                         LLMTransformConfig.CustomRequestConfig.CUSTOM_CONFIG)
+                .conditional(
+                        EmbeddingTransformConfig.MODEL_PROVIDER,
+                        ModelProvider.ZHIPU,
+                        EmbeddingTransformConfig.DIMENSION)
                 .optional(TransformCommonOptions.MULTI_TABLES)
                 .optional(TransformCommonOptions.TABLE_MATCH_REGEX)
                 .build();
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/AbstractModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/AbstractModel.java
@@ -42,23 +42,23 @@ protected AbstractModel(Integer singleVectorizedInputNumber) {
     public List<ByteBuffer> vectorization(Object[] fields) throws IOException {
         List<ByteBuffer> result = new ArrayList<>();
 
-        List<List<Float>> vectors = batchProcess(fields, singleVectorizedInputNumber);
-        for (List<Float> vector : vectors) {
-            result.add(BufferUtils.toByteBuffer(vector.toArray(new Float[0])));
+        List<List<Double>> vectors = batchProcess(fields, singleVectorizedInputNumber);
+        for (List<Double> vector : vectors) {
+            result.add(BufferUtils.toByteBuffer(vector.toArray(new Double[0])));
         }
         return result;
     }
 
-    protected abstract List<List<Float>> vector(Object[] fields) throws IOException;
+    protected abstract List<List<Double>> vector(Object[] fields) throws IOException;
 
-    public List<List<Float>> batchProcess(Object[] array, int batchSize) throws IOException {
-        List<List<Float>> merged = new ArrayList<>();
+    public List<List<Double>> batchProcess(Object[] array, int batchSize) throws IOException {
+        List<List<Double>> merged = new ArrayList<>();
         if (array == null || array.length == 0) {
             return merged;
         }
         for (int i = 0; i < array.length; i += batchSize) {
             Object[] batch = ArrayUtils.subarray(array, i, i + batchSize);
-            List<List<Float>> vector = vector(batch);
+            List<List<Double>> vector = vector(batch);
             merged.addAll(vector);
         }
         if (array.length != merged.size()) {
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/custom/CustomModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/custom/CustomModel.java
@@ -67,7 +67,7 @@ public CustomModel(
     }
 
     @Override
-    protected List<List<Float>> vector(Object[] fields) throws IOException {
+    protected List<List<Double>> vector(Object[] fields) throws IOException {
         return vectorGeneration(fields);
     }
 
@@ -76,7 +76,7 @@ public Integer dimension() throws IOException {
         return vectorGeneration(new Object[] {DIMENSION_EXAMPLE}).size();
     }
 
-    private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {
+    private List<List<Double>> vectorGeneration(Object[] fields) throws IOException {
         HttpPost post = new HttpPost(apiPath);
         // Construct a request with custom parameters
         for (Map.Entry<String, String> entry : header.entrySet()) {
@@ -96,7 +96,7 @@ private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {
         }
 
         return OBJECT_MAPPER.convertValue(
-                parseResponse(responseStr), new TypeReference<List<List<Float>>>() {});
+                parseResponse(responseStr), new TypeReference<List<List<Double>>>() {});
     }
 
     @VisibleForTesting
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/doubao/DoubaoModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/doubao/DoubaoModel.java
@@ -54,7 +54,7 @@ public DoubaoModel(String apiKey, String model, String apiPath, Integer vectoriz
     }
 
     @Override
-    protected List<List<Float>> vector(Object[] fields) throws IOException {
+    protected List<List<Double>> vector(Object[] fields) throws IOException {
         return vectorGeneration(fields);
     }
 
@@ -63,7 +63,7 @@ public Integer dimension() throws IOException {
         return vectorGeneration(new Object[] {DIMENSION_EXAMPLE}).size();
     }
 
-    private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {
+    private List<List<Double>> vectorGeneration(Object[] fields) throws IOException {
         HttpPost post = new HttpPost(apiPath);
         post.setHeader("Authorization", "Bearer " + apiKey);
         post.setHeader("Content-Type", "application/json");
@@ -82,14 +82,14 @@ private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {
         }
 
         JsonNode data = OBJECT_MAPPER.readTree(responseStr).get("data");
-        List<List<Float>> embeddings = new ArrayList<>();
+        List<List<Double>> embeddings = new ArrayList<>();
 
         if (data.isArray()) {
             for (JsonNode node : data) {
                 JsonNode embeddingNode = node.get("embedding");
-                List<Float> embedding =
+                List<Double> embedding =
                         OBJECT_MAPPER.readValue(
-                                embeddingNode.traverse(), new TypeReference<List<Float>>() {});
+                                embeddingNode.traverse(), new TypeReference<List<Double>>() {});
                 embeddings.add(embedding);
             }
         }
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/openai/OpenAIModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/openai/OpenAIModel.java
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/qianfan/QianfanModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/qianfan/QianfanModel.java
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/zhipu/ZhipuModel.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/embedding/remote/zhipu/ZhipuModel.java
diff --git a/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/llm/LLMTransform.java b/seatunnel-transforms-v2/src/main/java/org/apache/seatunnel/transform/nlpmodel/llm/LLMTransform.java
diff --git a/seatunnel-transforms-v2/src/test/java/org/apache/seatunnel/transform/embedding/EmbeddingRequestJsonTest.java b/seatunnel-transforms-v2/src/test/java/org/apache/seatunnel/transform/embedding/EmbeddingRequestJsonTest.java

Original file line number	Diff line number	Diff line change
`@@ -67,7 +67,7 @@ public CustomModel(`
`67`	`67`	`}`
`68`	`68`
`69`	`69`	`@Override`
`70`		`- protected List<List<Float>> vector(Object[] fields) throws IOException {`
	`70`	`+ protected List<List<Double>> vector(Object[] fields) throws IOException {`
`71`	`71`	`return vectorGeneration(fields);`
`72`	`72`	`}`
`73`	`73`
`@@ -76,7 +76,7 @@ public Integer dimension() throws IOException {`
`76`	`76`	`return vectorGeneration(new Object[] {DIMENSION_EXAMPLE}).size();`
`77`	`77`	`}`
`78`	`78`
`79`		`- private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {`
	`79`	`+ private List<List<Double>> vectorGeneration(Object[] fields) throws IOException {`
`80`	`80`	`HttpPost post = new HttpPost(apiPath);`
`81`	`81`	`// Construct a request with custom parameters`
`82`	`82`	`for (Map.Entry<String, String> entry : header.entrySet()) {`
`@@ -96,7 +96,7 @@ private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {`
`96`	`96`	`}`
`97`	`97`
`98`	`98`	`return OBJECT_MAPPER.convertValue(`
`99`		`- parseResponse(responseStr), new TypeReference<List<List<Float>>>() {});`
	`99`	`+ parseResponse(responseStr), new TypeReference<List<List<Double>>>() {});`
`100`	`100`	`}`
`101`	`101`
`102`	`102`	`@VisibleForTesting`
Original file line number	Diff line number	Diff line change
`@@ -54,7 +54,7 @@ public DoubaoModel(String apiKey, String model, String apiPath, Integer vectoriz`
`54`	`54`	`}`
`55`	`55`
`56`	`56`	`@Override`
`57`		`- protected List<List<Float>> vector(Object[] fields) throws IOException {`
	`57`	`+ protected List<List<Double>> vector(Object[] fields) throws IOException {`
`58`	`58`	`return vectorGeneration(fields);`
`59`	`59`	`}`
`60`	`60`
`@@ -63,7 +63,7 @@ public Integer dimension() throws IOException {`
`63`	`63`	`return vectorGeneration(new Object[] {DIMENSION_EXAMPLE}).size();`
`64`	`64`	`}`
`65`	`65`
`66`		`- private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {`
	`66`	`+ private List<List<Double>> vectorGeneration(Object[] fields) throws IOException {`
`67`	`67`	`HttpPost post = new HttpPost(apiPath);`
`68`	`68`	`post.setHeader("Authorization", "Bearer " + apiKey);`
`69`	`69`	`post.setHeader("Content-Type", "application/json");`
`@@ -82,14 +82,14 @@ private List<List<Float>> vectorGeneration(Object[] fields) throws IOException {`
`82`	`82`	`}`
`83`	`83`
`84`	`84`	`JsonNode data = OBJECT_MAPPER.readTree(responseStr).get("data");`
`85`		`- List<List<Float>> embeddings = new ArrayList<>();`
	`85`	`+ List<List<Double>> embeddings = new ArrayList<>();`
`86`	`86`
`87`	`87`	`if (data.isArray()) {`
`88`	`88`	`for (JsonNode node : data) {`
`89`	`89`	`JsonNode embeddingNode = node.get("embedding");`
`90`		`- List<Float> embedding =`
	`90`	`+ List<Double> embedding =`
`91`	`91`	`OBJECT_MAPPER.readValue(`
`92`		`- embeddingNode.traverse(), new TypeReference<List<Float>>() {});`
	`92`	`+ embeddingNode.traverse(), new TypeReference<List<Double>>() {});`
`93`	`93`	`embeddings.add(embedding);`
`94`	`94`	`}`
`95`	`95`	`}`