undreamai
diff --git a/‎include/LLM.h‎
Lines changed: 8 additions & 8 deletions b/‎include/LLM.h‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎include/LLM_runtime.h‎
Lines changed: 15 additions & 12 deletions b/‎include/LLM_runtime.h‎
Lines changed: 15 additions & 12 deletions
diff --git a/‎include/LLM_service.h‎
Lines changed: 12 additions & 11 deletions b/‎include/LLM_service.h‎
Lines changed: 12 additions & 11 deletions
diff --git a/‎src/LLM.cpp‎
Lines changed: 16 additions & 20 deletions b/‎src/LLM.cpp‎
Lines changed: 16 additions & 20 deletions
diff --git a/‎src/LLM_runtime.cpp‎
Lines changed: 39 additions & 11 deletions b/‎src/LLM_runtime.cpp‎
Lines changed: 39 additions & 11 deletions
@@ -28,7 +28,6 @@ struct LoraIdScalePath {
 };
 
 void ensure_error_handlers_initialized();
-bool has_gpu_layers(const std::string& command);
 
 class UNDREAMAI_API LLM {
 protected:
@@ -38,7 +37,8 @@ class UNDREAMAI_API LLM {
     virtual std::string completion_impl(const json& data, CharArrayFn callback = nullptr, httplib::Response* res = nullptr, std::function<bool()> is_connection_closed = always_false, int oaicompat = 0) = 0;
 
 public:
-    static std::string LLM_args_to_command(const char* model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, int lora_count=0, const char** lora_paths=nullptr);
+    static bool has_gpu_layers(const std::string& command);
+    static std::string LLM_args_to_command(const std::string& model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, const std::vector<std::string>& lora_paths = {});
 
     virtual json build_tokenize_json(const std::string& query);
     virtual std::vector<int> parse_tokenize_json(const json& result);
@@ -79,12 +79,12 @@ class UNDREAMAI_API LLMLocal : public LLM {
     virtual void cancel_impl(int id_slot) = 0;
 
 public:
-    virtual json build_slot_json(int id_slot, std::string action, std::string filepath);
+    virtual json build_slot_json(int id_slot, const std::string& action, const std::string& filepath);
     virtual std::string parse_slot_json(const json& result);
     virtual std::string slot_json(const json& data, httplib::Response* res = nullptr);
-    virtual std::string slot_json(int id_slot, std::string action, std::string filepath, httplib::Response* res = nullptr);
+    virtual std::string slot_json(int id_slot, const std::string& action, const std::string& filepath, httplib::Response* res = nullptr);
     virtual std::string slot(const json& data, httplib::Response* res = nullptr);
-    virtual std::string slot(int id_slot, std::string action, std::string filepath, httplib::Response* res = nullptr);
+    virtual std::string slot(int id_slot, const std::string& action, const std::string& filepath, httplib::Response* res = nullptr);
 
     virtual void cancel(int id_slot);
 };
@@ -111,13 +111,13 @@ class UNDREAMAI_API LLMProvider : public LLMLocal {
     virtual std::vector<LoraIdScalePath> parse_lora_list_json(const json& result);
     virtual std::vector<LoraIdScalePath> lora_list();
 
-    virtual void start_server(const char* host="0.0.0.0", int port=0, const char* API_key="") = 0;
+    virtual void start_server(const std::string& host="0.0.0.0", int port=0, const std::string& API_key="") = 0;
     virtual void stop_server() = 0;
     virtual void join_server() = 0;
     virtual void start() = 0;
     virtual void stop() = 0;
     virtual void join_service() = 0;
-    virtual void set_SSL(const char* SSL_cert, const char* SSL_key) = 0;
+    virtual void set_SSL(const std::string& SSL_cert, const std::string& SSL_key) = 0;
     virtual bool started() = 0;
 
     virtual int embedding_size() = 0;
@@ -157,7 +157,7 @@ class LLMProviderRegistry {
 
 
 extern "C" {
-    UNDREAMAI_API bool Has_GPU_Layers(const std::string& command);
+    UNDREAMAI_API bool Has_GPU_Layers(const char* command);
 
     UNDREAMAI_API const char* LLM_Tokenize(LLM* llm, const char* json_data);
     UNDREAMAI_API const char* LLM_Detokenize(LLM* llm, const char* json_data);
 
@@ -71,26 +71,28 @@ class LLMService;
 
 class UNDREAMAI_API LLMRuntime : public LLMProvider {
 public:
-    LLMRuntime(const char* model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, int lora_count=0, const char** lora_paths=nullptr);
-    LLMRuntime(const std::string& command);
-    LLMRuntime(int argc, char ** argv);
+    LLMRuntime();
+    LLMRuntime(const std::string& model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, const std::vector<std::string>& lora_paths = {});
     ~LLMRuntime();
 
+    static LLMRuntime* from_command(const std::string& command);
+    static LLMRuntime* from_command(int argc, char ** argv);
+    
     LibHandle handle = nullptr;
     LLMProvider* llm = nullptr;
 
     bool create_LLM_library(const std::string& command);
 
     //=================================== LLM METHODS START ===================================//
-    void start_server(const char* host="0.0.0.0", int port=0, const char* API_key="") override { LLM_Start_Server((LLMProvider*)llm, host, port, API_key); }
-    void stop_server() override { LLM_Stop_Server((LLMProvider*)llm); }
-    void join_server() override { LLM_Join_Server((LLMProvider*)llm); }
-    void start() override { LLM_Start((LLMProvider*)llm); }
-    void stop() override { LLM_Stop((LLMProvider*)llm); }
-    void join_service() override { LLM_Join_Service((LLMProvider*)llm); }
-    void set_SSL(const char* cert, const char* key) override { LLM_Set_SSL((LLMProvider*)llm, cert, key); }
-    bool started() override { return LLM_Started((LLMProvider*)llm); }
-    int embedding_size() override { return LLM_Embedding_Size((LLMProvider*)llm);}
+    void start_server(const std::string& host="0.0.0.0", int port=0, const std::string& API_key="") override { ((LLMProvider*)llm)->start_server(host, port, API_key); }
+    void stop_server() override { ((LLMProvider*)llm)->stop_server(); }
+    void join_server() override { ((LLMProvider*)llm)->join_server(); }
+    void start() override { ((LLMProvider*)llm)->start(); }
+    void stop() override { ((LLMProvider*)llm)->stop();; }
+    void join_service() override { ((LLMProvider*)llm)->join_service(); }
+    void set_SSL(const std::string& cert, const std::string& key) override { ((LLMProvider*)llm)->set_SSL(cert, key); }
+    bool started() override { return ((LLMProvider*)llm)->started(); }
+    int embedding_size() override { return ((LLMProvider*)llm)->embedding_size();}
     //=================================== LLM METHODS END ===================================//
 
 #define DECLARE_FN(name, ret, ...) \
@@ -100,6 +102,7 @@ class UNDREAMAI_API LLMRuntime : public LLMProvider {
 
 protected:
     std::vector<std::filesystem::path> search_paths;
+
     //=================================== LLM METHODS START ===================================//
     std::string tokenize_impl(const json& data) override {
         return LLM_Tokenize((LLM*)llm, data.dump().c_str());
 
@@ -11,28 +11,30 @@ struct server_context;
 
 class UNDREAMAI_API LLMService : public LLMProvider {
     public:
-        LLMService(const char* model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, int lora_count=0, const char** lora_paths=nullptr);
-        LLMService(const json& params);
-        LLMService(const std::string& params);
-        LLMService(const char* params);
-        LLMService(int argc, char ** argv);
+        LLMService();
+        LLMService(const std::string& model_path, int num_threads=-1, int num_GPU_layers=0, int num_parallel=1, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, const std::vector<std::string>& lora_paths = {});
         ~LLMService();
 
-        void init(int argc, char** argv);
-        void init(const std::string& params);
-        void init(const char* params);
+        static LLMService* from_params(const json& params);
+        static LLMService* from_command(const std::string& command);
+        static LLMService* from_command(int argc, char ** argv);
 
         static EVP_PKEY* load_key(const std::string& key_str);
         static X509* load_cert(const std::string& cert_str);
+        static std::vector<char*> jsonToArguments(const json& params);
+
+        void init(int argc, char** argv);
+        void init(const std::string& params);
+        void init(const char* params);
 
         //=================================== LLM METHODS START ===================================//
-        void start_server(const char* host="0.0.0.0", int port=0, const char* API_key="") override;
+        void start_server(const std::string& host="0.0.0.0", int port=0, const std::string& API_key="") override;
         void stop_server() override;
         void join_server() override;
         void start() override;
         void stop() override;
         void join_service() override;
-        void set_SSL(const char* SSL_cert, const char* SSL_key) override;
+        void set_SSL(const std::string& SSL_cert, const std::string& SSL_key) override;
         bool started() override;
 
         int embedding_size() override;
@@ -61,7 +63,6 @@ class UNDREAMAI_API LLMService : public LLMProvider {
         std::string SSL_key = "";
         std::mutex start_stop_mutex;
 
-        std::vector<char*> jsonToArguments(const json& params);
         std::vector<std::string> splitArguments(const std::string& inputString);
         std::string completion_streaming(
             std::unordered_set<int> id_tasks,
 
@@ -27,26 +27,22 @@ void ensure_error_handlers_initialized() {
 
 //=========================== Helpers ===========================//
 
-std::string LLM::LLM_args_to_command(const char* model_path, int num_threads, int num_GPU_layers, int num_parallel, bool flash_attention, int context_size, int batch_size, bool embedding_only, int lora_count, const char** lora_paths)
-{
-    std::string command = std::string("-m ") + model_path
-                        + " -t " + std::to_string(num_threads)
-                        + " -ngl " + std::to_string(num_GPU_layers)
-                        + " -np " + std::to_string(num_parallel)
-                        + " -c " + std::to_string(context_size)
-                        + " -b " + std::to_string(batch_size);
+std::string LLM::LLM_args_to_command(const std::string& model_path, int num_threads, int num_GPU_layers, int num_parallel, bool flash_attention, int context_size, int batch_size, bool embedding_only, const std::vector<std::string>& lora_paths)
+{
+    std::string command = "-m " + model_path +
+                          " -t " + std::to_string(num_threads) +
+                          " -ngl " + std::to_string(num_GPU_layers) +
+                          " -np " + std::to_string(num_parallel) +
+                          " -c " + std::to_string(context_size) +
+                          " -b " + std::to_string(batch_size);
+
     if (flash_attention) command += " --flash-attn";
     if (embedding_only) command += " --embedding";
-    if (lora_paths != nullptr && lora_count > 0)
-    {
-        for (int i = 0; i < lora_count; ++i) {
-            command += " --lora " + std::string(lora_paths[i]);
-        }
-    }
+    for (const auto& lora_path : lora_paths) command += " --lora " + lora_path;
     return command;
 }
 
-bool has_gpu_layers(const std::string& command) {
+bool LLM::has_gpu_layers(const std::string& command) {
     std::istringstream iss(command);
     std::vector<std::string> args;
     std::string token;
@@ -258,7 +254,7 @@ std::string LLM::completion(const std::string& prompt, int id_slot, const json&
 
 //=========================== Slot Action ===========================//
 
-json LLMLocal::build_slot_json(int id_slot, std::string action, std::string filepath)
+json LLMLocal::build_slot_json(int id_slot, const std::string& action, const std::string& filepath)
 {
     json j;
     j["id_slot"] = id_slot;
@@ -281,7 +277,7 @@ std::string LLMLocal::slot_json(const json& data, httplib::Response* res)
     return slot_impl(data, res);
 }
 
-std::string LLMLocal::slot_json(int id_slot, std::string action, std::string filepath, httplib::Response* res)
+std::string LLMLocal::slot_json(int id_slot, const std::string& action, const std::string& filepath, httplib::Response* res)
 {
     return slot_json(build_slot_json(id_slot, action, filepath), res);
 }
@@ -291,7 +287,7 @@ std::string LLMLocal::slot(const json& data, httplib::Response* res)
     return parse_slot_json(json::parse(slot_json(data, res)));
 }
 
-std::string LLMLocal::slot(int id_slot, std::string action, std::string filepath, httplib::Response* res)
+std::string LLMLocal::slot(int id_slot, const std::string& action, const std::string& filepath, httplib::Response* res)
 {
     return slot(build_slot_json(id_slot, action, filepath), res);
 }
@@ -377,9 +373,9 @@ std::vector<LoraIdScalePath> LLMProvider::lora_list()
 
 //=========================== API ===========================//
 
-bool Has_GPU_Layers(const std::string& command)
+bool Has_GPU_Layers(const char* command)
 {
-    return has_gpu_layers(command);
+    return LLM::has_gpu_layers(command);
 }
 
 const char* LLM_Tokenize(LLM* llm, const char* json_data) {
 
@@ -247,16 +247,29 @@ bool LLMRuntime::create_LLM_library(const std::string& command) {
 
 //============================= LLMRuntime =============================//
 
-LLMRuntime::LLMRuntime(const char* model_path, int num_threads, int num_GPU_layers, int num_parallel, bool flash_attention, int context_size, int batch_size, bool embedding_only, int lora_count, const char** lora_paths)
-: LLMRuntime(LLM::LLM_args_to_command(model_path, num_threads, num_GPU_layers, num_parallel, flash_attention, context_size, batch_size, embedding_only, lora_count, lora_paths)) { }
-
-LLMRuntime::LLMRuntime(const std::string& command)
+LLMRuntime::LLMRuntime()
 {
     search_paths = get_search_directories();
+}
+
+LLMRuntime::LLMRuntime(const std::string& model_path, int num_threads, int num_GPU_layers, int num_parallel, bool flash_attention, int context_size, int batch_size, bool embedding_only, const std::vector<std::string>& lora_paths)
+: LLMRuntime()
+{
+    std::string command = LLM::LLM_args_to_command(model_path, num_threads, num_GPU_layers, num_parallel, flash_attention, context_size, batch_size, embedding_only, lora_paths);
     create_LLM_library(command);
 }
 
-LLMRuntime::LLMRuntime(int argc, char ** argv) : LLMRuntime(args_to_command(argc, argv)) { }
+LLMRuntime* LLMRuntime::from_command(const std::string& command)
+{
+    LLMRuntime* llmRuntime = new LLMRuntime();
+    llmRuntime->create_LLM_library(command);
+    return llmRuntime;
+}
+
+LLMRuntime* LLMRuntime::from_command(int argc, char ** argv)
+{
+    return from_command(args_to_command(argc, argv));
+}
 
 LLMRuntime::~LLMRuntime() {
     if (llm) {
@@ -287,15 +300,30 @@ const char* Available_Architectures(bool gpu)
 
 LLMRuntime* LLMRuntime_Construct(const char* model_path, int num_threads, int num_GPU_layers, int num_parallel, bool flash_attention, int context_size, int batch_size, bool embedding_only, int lora_count, const char** lora_paths)
 {
-    return LLMRuntime_From_Command(LLM::LLM_args_to_command(model_path, num_threads, num_GPU_layers, num_parallel, flash_attention, context_size, batch_size, embedding_only, lora_count, lora_paths).c_str());
+    std::vector<std::string> lora_paths_vector;
+    if (lora_paths != nullptr && lora_count > 0)
+    {
+        for (int i = 0; i < lora_count; ++i) {
+            lora_paths_vector.push_back(std::string(lora_paths[i]));
+        }
+    }
+    LLMRuntime* llmRuntime = new LLMRuntime(model_path, num_threads, num_GPU_layers, num_parallel, flash_attention, context_size, batch_size, embedding_only, lora_paths_vector);
+
+    if(llmRuntime->llm == nullptr)
+    {
+        delete llmRuntime;
+        return nullptr;
+    }
+    return llmRuntime;
 }
 
-LLMRuntime* LLMRuntime_From_Command(const char* command) {
-    LLMRuntime* lib = new LLMRuntime(std::string(command));
-    if(lib->llm == nullptr)
+LLMRuntime* LLMRuntime_From_Command(const char* command)
+{
+    LLMRuntime* llmRuntime = new LLMRuntime(std::string(command));
+    if(llmRuntime->llm == nullptr)
     {
-        delete lib;
+        delete llmRuntime;
         return nullptr;
     }
-    return lib;
+    return llmRuntime;
 }