foldl
diff --git a/‎CMakeLists.txt‎
Lines changed: 4 additions & 1 deletion b/‎CMakeLists.txt‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎README.md‎
Lines changed: 1 addition & 1 deletion b/‎README.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎convert.py‎
Lines changed: 31 additions & 0 deletions b/‎convert.py‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎docs/models.md‎
Lines changed: 3 additions & 0 deletions b/‎docs/models.md‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎models/ernie.cpp‎
Lines changed: 68 additions & 0 deletions b/‎models/ernie.cpp‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎models/ernie.h‎
Lines changed: 30 additions & 0 deletions b/‎models/ernie.h‎
Lines changed: 30 additions & 0 deletions
@@ -55,8 +55,11 @@ set(core_files src/backend.cpp
     src/unicode-data.cpp
     src/vision_process.cpp
     src/audio_process.cpp
+    models/ernie.cpp
+    models/hunyuan.cpp
+    models/llama.cpp
     models/qwen.cpp
-    models/hunyuan.cpp)
+    )
 
 add_library(libchatllm SHARED EXCLUDE_FROM_ALL src/main.cpp ${core_files})
 target_link_libraries(libchatllm PRIVATE ggml)
 
@@ -13,7 +13,7 @@ pure C++ implementation based on [@ggerganov](https://github.com/ggerganov)'s [g
 
 **What's New:**
 
-* 2025-06-30: Hunyuan-A13B
+* 2025-06-30: Hunyuan-A13B, ERNIE-Dense
 * 2025-06-21: [I can hear](./docs/multimodal.md): Qwen2-Audio
 * 2025-06-10: SmolVLM2
 * 2025-06-07: MiniCPM4
 
@@ -166,6 +166,7 @@ class ModelType(Enum):
     Exaone        = 0x1705
     DeepSeek_R1_Distill_LlaMA = 0x1706
     Aquila2       = 0x1707
+    ERNIE_DENSE   = 0x1708
 
     StarCoder2    = 0x1800
 
@@ -1359,6 +1360,34 @@ def dump_config(f, config, ggml_type):
     def get_weight_names(config):
         return LlamaConverter.get_weight_names(config)
 
+class ERNIEDenseConverter(BaseConverter):
+    MODEL_TYPE = ModelType.ERNIE_DENSE
+
+    @classmethod
+    def pp(cls, config, name: str, tensor):
+        return Llama3Converter.pp(config, name, tensor)
+
+    @staticmethod
+    def dump_config(f, config, ggml_type):
+        if config.rope_scaling is not None:
+            assert config.rope_scaling == 1.0, 'rope_scaling must equal to 1.0'
+
+        dump_llama_like_config(f, config, ggml_type)
+        config_values = [
+            config.num_key_value_heads,
+            config.head_dim,
+            1 if config.tie_word_embeddings else 0,
+        ]
+        f.write(struct.pack("i" * len(config_values), *config_values))
+        f.write(struct.pack("<f", config.rope_theta))
+
+    @staticmethod
+    def get_weight_names(config):
+        weight_names = Llama3Converter.get_weight_names(config)
+        if (config.tie_word_embeddings is not None) and config.tie_word_embeddings:
+            weight_names.remove('lm_head.weight')
+        return weight_names
+
 class Llama31Converter(BaseConverter):
     MODEL_TYPE = ModelType.LlaMA31
 
@@ -7485,6 +7514,8 @@ def main():
         AprielConverter.convert(config, model_files, vocab, ggml_type, args.save_path)
     elif arch in ['Qwen3MoeForCausalLM', 'Qwen3ForCausalLM']:
         QWen3Converter.convert(config, model_files, vocab, ggml_type, args.save_path)
+    elif arch == 'Ernie4_5_ForCausalLM':
+        ERNIEDenseConverter.convert(config, model_files, vocab, ggml_type, args.save_path)
     elif arch == 'deepseek-r1-distill-qwen3':
         QWen3Converter.MODEL_TYPE = ModelType.DeepSeek_R1_Distill_QWen3
         QWen3Converter.convert(config, model_files, vocab, ggml_type, args.save_path)
 
@@ -58,6 +58,9 @@
 
     Two optimization modes are defined: speed (default) and memory. See `BaseMLAttention`.
 
+* ERNIE (`Ernie4_5_ForCausalLM`)
+    * [x] [0.3B](https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT/tree/c163aa422d265f995b024d1322d91c4e3cb52ec8)
+
 * EXAONE (`ExaoneForCausalLM`)
     * [x] v3.5: [Instruct-2.4B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct), [Instruct-7.8B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct), [Instruct-32B](https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-32B-Instruct)
     * [x] Deep: [2.4B](https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-2.4B/tree/b9e0d963cc9be39abce33381f40a8da4324cf4bb), [7.8B](https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-7.8B/tree/19948cbbd0e9afb0f7b5a918eb7e2eb18341e076), [32B](https://huggingface.co/LGAI-EXAONE/EXAONE-Deep-32B/tree/dfa797fc8d8ae6ecc0e5f7a450317cc1433b2545)
 
@@ -0,0 +1,68 @@
+#include "ernie.h"
+
+namespace chatllm::ernie::dense
+{
+    class ChatHistoryEncoder : public BaseHistoryEncoder
+    {
+    public:
+        void append_sys_prompt(std::vector<int> &ids) const override;
+        void append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const override;
+        void append_user(int round_idx, const std::string &user, std::vector<int> &ids) const override;
+        void append_ai_opening(int round_idx, std::vector<int> &ids) const override;
+    };
+
+    static ChatHistoryEncoder _chat_encoder;
+
+    Tokenizer::Tokenizer(const Config &config)
+        : chatllm::llama::v2::Tokenizer(config, &_chat_encoder)
+    {}
+
+    void ChatHistoryEncoder::append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        append_ai_opening(round_idx, ids);
+        tok->encode(ai, ids, false, true);
+    }
+
+    void ChatHistoryEncoder::append_sys_prompt(std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        std::ostringstream oss_prompt;
+
+        ids.push_back(tok->bos_token_id);
+        if (tok->get_system_prompt().size() > 0)
+        {
+            oss_prompt << tok->get_system_prompt() << "\n";
+            auto text = oss_prompt.str();
+            tok->encode(text, ids);
+        }
+    }
+
+    void ChatHistoryEncoder::append_user(int round_idx, const std::string &user, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        std::ostringstream oss_prompt;
+
+        oss_prompt << "User:  " + user << "\n";
+        auto text = oss_prompt.str();
+        tok->encode(text, ids);
+    }
+
+    void ChatHistoryEncoder::append_ai_opening(int round_idx, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->encode("Assistant:  ", ids);
+    }
+
+    ConditionalGeneration::ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type)
+        : chatllm::llama::v2::GenericConditionalGeneration<LlamaBlock>(config, runtime_config, type,
+            config.num_key_value_heads, config.head_dim, config.max_length, 12, config.tie_word_embeddings != 0)
+    {
+        auto transformer = Base::get_typed_transformer<ModelClass2>();
+        for (int i = 0; i < config.num_hidden_layers; i++)
+        {
+            auto &attention = transformer->layers[i].attention;
+            attention.freq_base = config.rope_theta;
+        }
+    }
+}
@@ -0,0 +1,30 @@
+#pragma once
+
+#include "../src/models.h"
+#include "../src/models_priv.h"
+
+#include "llama.h"
+
+namespace chatllm::ernie::dense
+{
+    struct Config : public chatllm::llama::v2::Config
+    {
+        int num_key_value_heads;
+        int head_dim;
+        int tie_word_embeddings;
+        float rope_theta;
+    };
+
+    class Tokenizer : public chatllm::llama::v2::Tokenizer
+    {
+    public:
+        Tokenizer(const Config &config);
+    };
+
+    class ConditionalGeneration : public chatllm::llama::v2::GenericConditionalGeneration<LlamaBlock>
+    {
+    public:
+        ConditionalGeneration() = default;
+        ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type = ModelType::MODEL_TYPE_ERNIE_DENSE);
+    };
+}