jd-opensource
diff --git a/‎xllm/core/framework/dit_model_loader.cpp‎
Lines changed: 101 additions & 0 deletions b/‎xllm/core/framework/dit_model_loader.cpp‎
Lines changed: 101 additions & 0 deletions
diff --git a/‎xllm/core/framework/dit_model_loader.h‎
Lines changed: 1 addition & 0 deletions b/‎xllm/core/framework/dit_model_loader.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎xllm/core/framework/model/model_args.h‎
Lines changed: 2 additions & 0 deletions b/‎xllm/core/framework/model/model_args.h‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎xllm/core/framework/request/dit_request_state.h‎
Lines changed: 7 additions & 1 deletion b/‎xllm/core/framework/request/dit_request_state.h‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎xllm/models/dit/clip_text_model.h‎
Lines changed: 0 additions & 11 deletions b/‎xllm/models/dit/clip_text_model.h‎
Lines changed: 0 additions & 11 deletions
diff --git a/‎xllm/models/dit/pipeline_flux_prior_redux.h‎
Lines changed: 193 additions & 0 deletions b/‎xllm/models/dit/pipeline_flux_prior_redux.h‎
Lines changed: 193 additions & 0 deletions
@@ -81,6 +81,12 @@ bool DiTFolderLoader::load_args(const std::string& model_weights_path) {
     return false;
   }
 
+  if (!load_image_preprocessor_args(model_weights_path)) {
+    LOG(ERROR) << "Failed to load image preprocess args from "
+               << model_weights_path;
+    return false;
+  }
+
   return true;
 }
 
@@ -219,6 +225,101 @@ bool DiTFolderLoader::load_tokenizer_args(
   return true;
 }
 
+bool DiTFolderLoader::load_image_preprocessor_args(
+    const std::string& model_weights_path) {
+  // image preprocessor args
+  JsonReader image_preprocess_reader;
+  const std::string image_preprocess_file_path =
+      model_weights_path + "/preprocessor_config.json";
+  if (image_preprocess_reader.parse(image_preprocess_file_path)) {
+    LOG(INFO) << "Success to parse image preprocess args file: "
+              << image_preprocess_file_path;
+    args_.mm_image_do_center_crop() =
+        image_preprocess_reader.value_or<bool>("do_center_crop", false);
+    args_.mm_image_crop_height_size() =
+        image_preprocess_reader.value_or<int>("crop_size.height", 335);
+    args_.mm_image_crop_width_size() =
+        image_preprocess_reader.value_or<int>("crop_size.width", 335);
+
+    args_.mm_image_size_height() =
+        image_preprocess_reader.value_or<int>("size.height", 384);
+
+    args_.mm_image_size_width() =
+        image_preprocess_reader.value_or<int>("size.width", 384);
+
+    args_.mm_image_do_resize() =
+        image_preprocess_reader.value_or<bool>("do_resize", false);
+    args_.mm_image_resize_shortest_edge() =
+        image_preprocess_reader.value_or<int>("size.shortest_edge", 335);
+    args_.mm_image_resample() =
+        image_preprocess_reader.value_or<int>("resample", 335);
+
+    args_.mm_image_do_rescale() =
+        image_preprocess_reader.value_or<bool>("do_rescale", false);
+    args_.mm_image_rescale_factor() =
+        image_preprocess_reader.value_or<double>("rescale_factor", 0);
+
+    args_.mm_image_do_normalize() =
+        image_preprocess_reader.value_or<bool>("do_normalize", false);
+
+    const auto& image_prerocess_data = image_preprocess_reader.data();
+    if (image_preprocess_reader.contains("image_mean")) {
+      args_.mm_image_normalize_mean() =
+          image_prerocess_data["image_mean"].get<std::vector<double>>();
+    }
+
+    if (image_preprocess_reader.contains("image_std")) {
+      args_.mm_image_normalize_std() =
+          image_prerocess_data["image_std"].get<std::vector<double>>();
+    }
+
+    if (image_preprocess_reader.contains("norm_mean")) {
+      args_.mm_image_normalize_mean() =
+          image_prerocess_data["norm_mean"].get<std::vector<double>>();
+    }
+
+    if (image_preprocess_reader.contains("norm_std")) {
+      args_.mm_image_normalize_std() =
+          image_prerocess_data["norm_std"].get<std::vector<double>>();
+    }
+
+    args_.mm_image_shortest_edge() =
+        image_preprocess_reader.value_or<int>("size.shortest_edge", 0);
+
+    args_.mm_image_longest_edge() =
+        image_preprocess_reader.value_or<int>("size.longest_edge", 0);
+
+    args_.mm_image_min_pixels() =
+        image_preprocess_reader.value_or<int>("min_pixels", 0);
+
+    args_.mm_image_max_pixels() =
+        image_preprocess_reader.value_or<int>("max_pixels", 0);
+
+    args_.mm_image_patch_size() =
+        image_preprocess_reader.value_or<int>("patch_size", 0);
+
+    args_.mm_image_temporal_patch_size() =
+        image_preprocess_reader.value_or<int>("temporal_patch_size", 0);
+
+    args_.mm_image_merge_size() =
+        image_preprocess_reader.value_or<int>("merge_size", 0);
+
+    args_.mm_image_feature_size() =
+        image_preprocess_reader.value_or<int>("image_feature_size", 0);
+
+    args_.mm_scale_resolution() =
+        image_preprocess_reader.value_or<int>("scale_resolution", 0);
+
+    args_.mm_slice_mode() =
+        image_preprocess_reader.value_or<bool>("slice_mode", false);
+
+    args_.mm_use_image_id() =
+        image_preprocess_reader.value_or<bool>("use_image_id", false);
+  }
+
+  return true;
+}
+
 DiTModelLoader::DiTModelLoader(const std::string& model_root_path)
     : model_root_path_(model_root_path) {
   if (!std::filesystem::exists(model_root_path_)) {
 
@@ -43,6 +43,7 @@ class DiTFolderLoader {
   bool load_args(const std::string& model_weights_path);
   bool load_model_args(const std::string& model_weights_path);
   bool load_tokenizer_args(const std::string& model_weights_path);
+  bool load_image_preprocessor_args(const std::string& model_weights_path);
 
   // model args
   ModelArgs args_;
 
@@ -287,6 +287,8 @@ struct ModelArgs {
   // VLM image preprocessor resize
   PROPERTY(bool, mm_image_do_resize) = false;
   PROPERTY(int, mm_image_resize_shortest_edge) = 336;
+  PROPERTY(int64_t, mm_image_size_height) = 384;
+  PROPERTY(int64_t, mm_image_size_width) = 384;
 
   PROPERTY(int, mm_image_resample) = 0;
 
 
@@ -41,7 +41,9 @@ struct DiTGenerationParams {
            num_images_per_prompt == other.num_images_per_prompt &&
            seed == other.seed &&
            max_sequence_length == other.max_sequence_length &&
-           strength == other.strength;
+           strength == other.strength &&
+           prompt_embeds_scale == other.prompt_embeds_scale &&
+           pooled_prompt_embeds_scale == other.pooled_prompt_embeds_scale;
   }
 
   bool operator!=(const DiTGenerationParams& other) const {
@@ -65,6 +67,10 @@ struct DiTGenerationParams {
   int32_t max_sequence_length = 512;
 
   float strength = 1.0;
+
+  float prompt_embeds_scale = 1.0;
+
+  float pooled_prompt_embeds_scale = 1.0;
 };
 
 struct DiTInputParams {
 
@@ -16,24 +16,13 @@ limitations under the License.
 
 #pragma once
 
-#include <atb/atb_infer.h>
-#include <c10/core/ScalarType.h>
 #include <torch/torch.h>
 
-#include <regex>
-#include <unordered_map>
-
-#include "core/framework/dit_model_loader.h"
-#include "core/framework/kv_cache/kv_cache.h"
 #include "core/framework/model/model_input_params.h"
 #include "core/framework/model_context.h"
-#include "core/layers/npu/npu_siglip_encoder_layer_impl.h"
 #include "dit_linear.h"
 #include "models/model_registry.h"
-#include "processors/clip_image_processor.h"
 #include "processors/input_processor.h"
-#include "processors/pywarpper_image_processor.h"
-#include "xllm_kernels/core/include/atb_speed/log.h"
 
 namespace xllm {
 // clip_text_model compatible with huggingface weights
 
@@ -0,0 +1,193 @@
+/* Copyright 2025 The xLLM Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    https://github.com/jd-opensource/xllm/blob/main/LICENSE
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+==============================================================================*/
+
+#pragma once
+#include "pipeline_flux_base.h"
+#include "processors/siglip_image_processor.h"
+#include "siglip_vision_model.h"
+// pipeline_flux_prior_redux compatible with huggingface weights
+// ref to:
+// https://github.com/huggingface/diffusers/blob/main/src/diffusers/pipelines/flux/pipeline_flux_prior_redux.py
+
+namespace xllm {
+
+class ReduxImageEncoderImpl : public torch::nn::Module {
+ public:
+  explicit ReduxImageEncoderImpl(const ModelContext& context) {
+    auto model_args = context.get_model_args();
+    auto options = context.get_tensor_options();
+    act_ = register_module("act", torch::nn::Functional(torch::silu));
+
+    redux_up_ = register_module("redux_up",
+                                DiTLinear(model_args.mm_hidden_size(),
+                                          model_args.mm_intermediate_size() * 3,
+                                          true));
+    redux_down_ =
+        register_module("redux_down",
+                        DiTLinear(model_args.mm_intermediate_size() * 3,
+                                  model_args.mm_intermediate_size(),
+                                  true));
+    redux_up_->to(options);
+    redux_down_->to(options);
+  }
+
+  torch::Tensor forward(const torch::Tensor& hidden_states) {
+    return redux_down_(act_(redux_up_(hidden_states)));
+  }
+
+  void load_model(std::unique_ptr<DiTFolderLoader> loader) {
+    for (const auto& state_dict : loader->get_state_dicts()) {
+      redux_up_->load_state_dict(state_dict->get_dict_with_prefix("redux_up."));
+      redux_up_weight_loaded_ = true;
+      redux_up_bias_loaded_ = true;
+      redux_down_->load_state_dict(
+          state_dict->get_dict_with_prefix("redux_down."));
+      redux_down_weight_loaded_ = true;
+      redux_down_bias_loaded_ = true;
+    }
+  }
+
+  void verify_loaded_weights(const std::string& prefix) const {
+    CHECK(redux_up_weight_loaded_)
+        << "weight is not loaded for " << prefix + "redux_up.weight";
+    CHECK(redux_up_bias_loaded_)
+        << "weight is not loaded for " << prefix + "redux_up.bias";
+    CHECK(redux_down_weight_loaded_)
+        << "weight is not loaded for " << prefix + "redux_down.weight";
+    CHECK(redux_down_bias_loaded_)
+        << "weight is not loaded for " << prefix + "redux_down.bias";
+  }
+
+ private:
+  DiTLinear redux_up_{nullptr};
+  DiTLinear redux_down_{nullptr};
+
+  torch::nn::Functional act_ = nullptr;
+  bool redux_up_weight_loaded_ = false;
+  bool redux_up_bias_loaded_ = false;
+  bool redux_down_weight_loaded_ = false;
+  bool redux_down_bias_loaded_ = false;
+};
+TORCH_MODULE(ReduxImageEncoder);
+
+REGISTER_MODEL_ARGS(ReduxImageEncoder, [&] {
+  LOAD_ARG_OR(dtype, "torch_dtype", "bfloat16");
+  LOAD_ARG_OR(mm_hidden_size, "redux_dim", 1152);
+  LOAD_ARG_OR(mm_intermediate_size, "txt_in_features", 4096);
+});
+
+class FluxPriorReduxPipelineImpl : public FluxPipelineBaseImpl {
+ public:
+  FluxPriorReduxPipelineImpl(const DiTModelContext& context) {
+    auto model_args = context.get_model_args("feature_extractor");
+    options_ = context.get_tensor_options();
+    image_encoder_ =
+        SiglipVisionModel(context.get_model_context("image_encoder"));
+    image_embedder_ =
+        ReduxImageEncoder(context.get_model_context("image_embedder"));
+    feature_extractor_ = std::make_unique<SiglipImageProcessor>(model_args);
+  }
+
+  void load_model(std::unique_ptr<DiTModelLoader> loader) {
+    std::string model_path = loader->model_root_path();
+    auto image_encoder_loader = loader->take_component_loader("image_encoder");
+    auto image_embedder_loader =
+        loader->take_component_loader("image_embedder");
+    image_encoder_->load_model(std::move(image_encoder_loader));
+    image_encoder_->to(options_.device());
+    image_embedder_->load_model(std::move(image_embedder_loader));
+    image_embedder_->to(options_.device());
+  }
+
+  torch::Tensor encode_image(const torch::Tensor& image,
+                             int64_t num_images_per_prompt) {
+    auto imgs = feature_extractor_->preprocess(image).to(options_);
+    auto image_enc_hidden_states = image_encoder_->forward(imgs);
+    image_enc_hidden_states =
+        image_enc_hidden_states.repeat_interleave(num_images_per_prompt, 0);
+    return image_enc_hidden_states;
+  }
+
+  DiTForwardOutput forward(const DiTForwardInput& input) {
+    const auto& generation_params = input.generation_params;
+    auto image = input.images.defined() ? std::make_optional(input.images)
+                                        : std::nullopt;
+    auto prompt_embeds = input.prompt_embeds.defined()
+                             ? std::make_optional(input.prompt_embeds)
+                             : std::nullopt;
+    auto pooled_prompt_embeds =
+        input.pooled_prompt_embeds.defined()
+            ? std::make_optional(input.pooled_prompt_embeds)
+            : std::nullopt;
+    auto prompt_embeds_scale = generation_params.prompt_embeds_scale;
+    auto pooled_prompt_embeds_scale =
+        generation_params.pooled_prompt_embeds_scale;
+    std::vector<torch::Tensor> output = forward_(image.value(),
+                                                 prompt_embeds,
+                                                 pooled_prompt_embeds,
+                                                 generation_params.height,
+                                                 generation_params.width,
+                                                 prompt_embeds_scale,
+                                                 pooled_prompt_embeds_scale);
+    DiTForwardOutput out;
+    out.tensors = output;
+    return out;
+  }
+
+  std::vector<torch::Tensor> forward_(
+      torch::Tensor image,
+      std::optional<torch::Tensor> prompt_embeds_opt,
+      std::optional<torch::Tensor> pooled_prompt_embeds_opt,
+      int64_t height = 384,
+      int64_t width = 384,
+      float prompt_embeds_scale = 1.0f,
+      float pooled_prompt_embeds_scale = 1.0f) {
+    torch::NoGradGuard no_grad;
+    int64_t batch_size = image.dim() == 4 ? image.size(0) : 1;
+    torch::Tensor image_latents =
+        encode_image(image, /*num_images_per_prompt=*/1);
+    torch::Tensor image_embeds =
+        image_embedder_->forward(image_latents).to(options_);
+
+    // prompt_embeds: [batch_size, seq_len, hidden_dim]
+    torch::Tensor prompt_embeds = prompt_embeds_opt.value_or(
+        torch::zeros({batch_size, 512, 4096}, options_));
+    // pooled_prompt_embeds: [batch_size, pooled_hidden_dim]
+    torch::Tensor pooled_prompt_embeds = pooled_prompt_embeds_opt.value_or(
+        torch::zeros({batch_size, 768}, options_));
+
+    prompt_embeds = torch::cat({prompt_embeds, image_embeds}, /*dim=*/1);
+    prompt_embeds *= torch::full({batch_size}, prompt_embeds_scale, options_)
+                         .view({-1, 1, 1});
+    pooled_prompt_embeds *=
+        torch::full({batch_size}, pooled_prompt_embeds_scale, options_)
+            .view({-1, 1});
+
+    prompt_embeds = torch::sum(prompt_embeds, /*dim=*/0, /*keepdim=*/true);
+    pooled_prompt_embeds =
+        torch::sum(pooled_prompt_embeds, /*dim=*/0, /*keepdim=*/true);
+
+    return {prompt_embeds, pooled_prompt_embeds};
+  }
+
+ private:
+  SiglipVisionModel image_encoder_{nullptr};
+  std::unique_ptr<SiglipImageProcessor> feature_extractor_;
+  ReduxImageEncoder image_embedder_{nullptr};
+};
+TORCH_MODULE(FluxPriorReduxPipeline);
+
+REGISTER_DIT_MODEL(fluxredux, FluxPriorReduxPipeline);
+}  // namespace xllm