mozilla-ai
diff --git a/‎llama.cpp‎ b/‎llama.cpp‎
diff --git a/‎llama.cpp.patches/llamafile-files/BUILD.mk‎
Lines changed: 14 additions & 3 deletions b/‎llama.cpp.patches/llamafile-files/BUILD.mk‎
Lines changed: 14 additions & 3 deletions
diff --git a/‎llama.cpp.patches/patches/common_arg.cpp.patch‎
Lines changed: 1 addition & 1 deletion b/‎llama.cpp.patches/patches/common_arg.cpp.patch‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎llama.cpp.patches/patches/common_common.cpp.patch‎
Lines changed: 3 additions & 3 deletions b/‎llama.cpp.patches/patches/common_common.cpp.patch‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎llama.cpp.patches/patches/common_download.cpp.patch‎
Lines changed: 1 addition & 1 deletion b/‎llama.cpp.patches/patches/common_download.cpp.patch‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎llama.cpp.patches/patches/common_log.cpp.patch‎
Lines changed: 1 addition & 1 deletion b/‎llama.cpp.patches/patches/common_log.cpp.patch‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎llama.cpp.patches/patches/ggml_include_ggml-backend.h.patch‎
Lines changed: 3 additions & 3 deletions b/‎llama.cpp.patches/patches/ggml_include_ggml-backend.h.patch‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎llama.cpp.patches/patches/ggml_include_ggml-cuda.h.patch‎
Lines changed: 3 additions & 3 deletions b/‎llama.cpp.patches/patches/ggml_include_ggml-cuda.h.patch‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎llama.cpp.patches/patches/ggml_src_ggml-backend-impl.h.patch‎
Lines changed: 18 additions & 8 deletions b/‎llama.cpp.patches/patches/ggml_src_ggml-backend-impl.h.patch‎
Lines changed: 18 additions & 8 deletions
@@ -24,6 +24,7 @@ GGML_SRCS_C := \
 
 GGML_SRCS_CPP := \
 	llama.cpp/ggml/src/ggml-backend-dl.cpp \
+	llama.cpp/ggml/src/ggml-backend-meta.cpp \
 	llama.cpp/ggml/src/ggml-backend-reg.cpp \
 	llama.cpp/ggml/src/ggml-backend.cpp \
 	llama.cpp/ggml/src/ggml-opt.cpp \
@@ -108,7 +109,7 @@ LLAMA_SRCS_CPP := \
 	llama.cpp/src/models/lfm2.cpp \
 	llama.cpp/src/models/llada-moe.cpp \
 	llama.cpp/src/models/llada.cpp \
-	llama.cpp/src/models/llama-iswa.cpp \
+	llama.cpp/src/models/llama4.cpp \
 	llama.cpp/src/models/llama.cpp \
 	llama.cpp/src/models/maincoder.cpp \
 	llama.cpp/src/models/mamba.cpp \
@@ -160,8 +161,8 @@ LLAMA_SRCS_CPP := \
 	llama.cpp/src/models/starcoder.cpp \
 	llama.cpp/src/models/step35-iswa.cpp \
 	llama.cpp/src/models/starcoder2.cpp \
-	llama.cpp/src/models/t5-dec.cpp \
-	llama.cpp/src/models/t5-enc.cpp \
+	llama.cpp/src/models/t5.cpp \
+	llama.cpp/src/models/t5encoder.cpp \
 	llama.cpp/src/models/wavtokenizer-dec.cpp \
 	llama.cpp/src/models/xverse.cpp \
 	llama.cpp/src/llama-adapter.cpp \
@@ -208,6 +209,7 @@ COMMON_SRCS_CPP := \
 	llama.cpp/common/console.cpp \
 	llama.cpp/common/debug.cpp \
 	llama.cpp/common/download.cpp \
+	llama.cpp/common/fit.cpp \
 	llama.cpp/common/hf-cache.cpp \
 	llama.cpp/common/jinja/caps.cpp \
 	llama.cpp/common/jinja/lexer.cpp \
@@ -249,6 +251,10 @@ COMMON_SRCS_CPP += o/$(MODE)/llama.cpp/common/build-info.cpp
 
 COMMON_OBJS := $(COMMON_SRCS_CPP:%.cpp=o/$(MODE)/%.cpp.o)
 
+# build-info.cpp #includes "build-info.h" from llama.cpp/common; tests build the
+# single-prefix object directly via the generic rule, so add the include path.
+o/$(MODE)/llama.cpp/common/build-info.cpp.o: private CPPFLAGS += -iquote llama.cpp/common
+
 # ==============================================================================
 # Additional support files
 # ==============================================================================
@@ -281,6 +287,8 @@ MTMD_SRCS_CPP := \
 	llama.cpp/tools/mtmd/models/cogvlm.cpp \
 	llama.cpp/tools/mtmd/models/deepseekocr.cpp \
 	llama.cpp/tools/mtmd/models/conformer.cpp \
+	llama.cpp/tools/mtmd/models/dotsocr.cpp \
+	llama.cpp/tools/mtmd/models/gemma4a.cpp \
 	llama.cpp/tools/mtmd/models/gemma4v.cpp \
 	llama.cpp/tools/mtmd/models/glm4v.cpp \
 	llama.cpp/tools/mtmd/models/hunyuanocr.cpp \
@@ -295,10 +303,12 @@ MTMD_SRCS_CPP := \
 	llama.cpp/tools/mtmd/models/paddleocr.cpp \
 	llama.cpp/tools/mtmd/models/pixtral.cpp \
 	llama.cpp/tools/mtmd/models/qwen2vl.cpp \
+	llama.cpp/tools/mtmd/models/qwen3a.cpp \
 	llama.cpp/tools/mtmd/models/qwen3vl.cpp \
 	llama.cpp/tools/mtmd/models/siglip.cpp \
 	llama.cpp/tools/mtmd/models/step3vl.cpp \
 	llama.cpp/tools/mtmd/models/whisper-enc.cpp \
+	llama.cpp/tools/mtmd/models/yasa2.cpp \
 	llama.cpp/tools/mtmd/models/youtuvl.cpp
 
 MTMD_OBJS := $(MTMD_SRCS_CPP:%.cpp=o/$(MODE)/%.cpp.o)
@@ -342,6 +352,7 @@ TOOL_BENCH_SRCS := llama.cpp/tools/llama-bench/llama-bench.cpp
 
 TOOL_SERVER_SRCS := \
 	llama.cpp/tools/server/server.cpp \
+	llama.cpp/tools/server/server-chat.cpp \
 	llama.cpp/tools/server/server-common.cpp \
 	llama.cpp/tools/server/server-context.cpp \
 	llama.cpp/tools/server/server-http.cpp \
 
@@ -1,7 +1,7 @@
 diff --git a/common/arg.cpp b/common/arg.cpp
 --- a/llama.cpp/common/arg.cpp
 +++ b/llama.cpp/common/arg.cpp
-@@ -37,6 +37,8 @@
+@@ -38,6 +38,8 @@
  #ifndef __EMSCRIPTEN__
  #ifdef __linux__
  #include <linux/limits.h>
 
@@ -1,7 +1,7 @@
 diff --git a/common/common.cpp b/common/common.cpp
 --- a/llama.cpp/common/common.cpp
 +++ b/llama.cpp/common/common.cpp
-@@ -970,6 +970,16 @@ std::string fs_get_cache_directory() {
+@@ -972,6 +972,16 @@ std::string fs_get_cache_directory() {
          cache_directory = std::getenv("HOME") + std::string("/Library/Caches/");
  #elif defined(_WIN32)
          cache_directory = std::getenv("LOCALAPPDATA");
@@ -18,7 +18,7 @@ diff --git a/common/common.cpp b/common/common.cpp
  #elif defined(__EMSCRIPTEN__)
          GGML_ABORT("not implemented on this platform");
  #else
-@@ -1146,10 +1156,31 @@ common_init_result::common_init_result(common_params & params) :
+@@ -1148,10 +1158,31 @@ common_init_result::common_init_result(common_params & params) :
 
      if (params.fit_params) {
          LOG_INF("%s: fitting params to device memory, for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on\n", __func__);
@@ -43,7 +43,7 @@ diff --git a/common/common.cpp b/common/common.cpp
 +            }
 +        }
 +
-         llama_params_fit(params.model.path.c_str(), &mparams, &cparams,
+         common_fit_params(params.model.path.c_str(), &mparams, &cparams,
              params.tensor_split,
              params.tensor_buft_overrides.data(),
 -            params.fit_params_target.data(),
 
@@ -1,7 +1,7 @@
 diff --git a/common/download.cpp b/common/download.cpp
 --- a/llama.cpp/common/download.cpp
 +++ b/llama.cpp/common/download.cpp
-@@ -25,6 +25,8 @@
+@@ -26,6 +26,8 @@
  #ifndef __EMSCRIPTEN__
  #ifdef __linux__
  #include <linux/limits.h>
 
@@ -9,7 +9,7 @@ diff --git a/common/log.cpp b/common/log.cpp
  #endif // defined(_WIN32)
 
  int common_log_verbosity_thold = LOG_DEFAULT_LLAMA;
-@@ -257,10 +258,27 @@ public:
+@@ -261,10 +262,27 @@ public:
          running = true;
 
          thrd = std::thread([this]() {
 
@@ -18,10 +18,10 @@ diff --git a/ggml/include/ggml-backend.h b/ggml/include/ggml-backend.h
  #ifdef  __cplusplus
  extern "C" {
  #endif
-@@ -197,19 +207,19 @@ extern "C" {
-     // Common functions that may be obtained using ggml_backend_reg_get_proc_address
+@@ -208,19 +218,19 @@ extern "C" {
+     typedef bool   (*ggml_backend_comm_allreduce_tensor_t)(void * comm_ctx, struct ggml_tensor ** tensors);
 
-     // Split buffer type for tensor parallelism
+     // Split buffer type for tensor parallelism (old)
 -    typedef ggml_backend_buffer_type_t   (*ggml_backend_split_buffer_type_t)(int main_device, const float * tensor_split);
 +    typedef ggml_backend_buffer_type_t   (GGML_CALL *ggml_backend_split_buffer_type_t)(int main_device, const float * tensor_split);
      // Set the number of threads for the backend
 
@@ -1,16 +1,16 @@
 diff --git a/ggml/include/ggml-cuda.h b/ggml/include/ggml-cuda.h
 --- a/llama.cpp/ggml/include/ggml-cuda.h
 +++ b/llama.cpp/ggml/include/ggml-cuda.h
-@@ -28,7 +28,7 @@ GGML_BACKEND_API bool ggml_backend_is_cuda(ggml_backend_t backend);
- GGML_BACKEND_API ggml_backend_buffer_type_t ggml_backend_cuda_buffer_type(int device);
+@@ -31,7 +31,7 @@ GGML_BACKEND_API ggml_backend_buffer_type_t ggml_backend_cuda_buffer_type(int de
+ GGML_BACKEND_API bool ggml_backend_cuda_allreduce_tensor(ggml_backend_t * backends, struct ggml_tensor ** tensors, size_t n_backends);
 
  // split tensor buffer that splits matrices by rows across multiple devices
 -GGML_BACKEND_API ggml_backend_buffer_type_t ggml_backend_cuda_split_buffer_type(int main_device, const float * tensor_split);
 +GGML_BACKEND_API ggml_backend_buffer_type_t GGML_CALL ggml_backend_cuda_split_buffer_type(int main_device, const float * tensor_split);
 
  // pinned host buffer for use with the CPU backend for faster copies between CPU and GPU
  GGML_BACKEND_API ggml_backend_buffer_type_t ggml_backend_cuda_host_buffer_type(void);
-@@ -37,8 +37,8 @@ GGML_BACKEND_API int  ggml_backend_cuda_get_device_count(void);
+@@ -40,8 +40,8 @@ GGML_BACKEND_API int  ggml_backend_cuda_get_device_count(void);
  GGML_BACKEND_API void ggml_backend_cuda_get_device_description(int device, char * description, size_t description_size);
  GGML_BACKEND_API void ggml_backend_cuda_get_device_memory(int device, size_t * free, size_t * total);
 
 
@@ -25,7 +25,7 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
      };
 
      struct ggml_backend_buffer_type {
-@@ -39,22 +39,26 @@ extern "C" {
+@@ -39,26 +39,30 @@ extern "C" {
      //
 
      struct ggml_backend_buffer_i {
@@ -46,6 +46,12 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
 +        void         (GGML_CALL *memset_tensor)(ggml_backend_buffer_t buffer,       struct ggml_tensor * tensor,     uint8_t value, size_t offset, size_t size);
 +        void         (GGML_CALL *set_tensor)   (ggml_backend_buffer_t buffer,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
 +        void         (GGML_CALL *get_tensor)   (ggml_backend_buffer_t buffer, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
+         // (optional) 2d data copies
+-        void         (*set_tensor_2d)(ggml_backend_buffer_t buffer,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
+-        void         (*get_tensor_2d)(ggml_backend_buffer_t buffer, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
++        void         (GGML_CALL *set_tensor_2d)(ggml_backend_buffer_t buffer,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
++        void         (GGML_CALL *get_tensor_2d)(ggml_backend_buffer_t buffer, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
+ 
          // (optional) tensor copy: dst is in the buffer, src may be in any buffer, including buffers from a different backend (return false if not supported)
 -        bool         (*cpy_tensor)   (ggml_backend_buffer_t buffer, const struct ggml_tensor * src, struct ggml_tensor * dst);
 +        bool         (GGML_CALL *cpy_tensor)   (ggml_backend_buffer_t buffer, const struct ggml_tensor * src, struct ggml_tensor * dst);
@@ -62,7 +68,7 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
      };
 
      struct ggml_backend_buffer {
-@@ -85,38 +89,38 @@ extern "C" {
+@@ -103,40 +107,40 @@ extern "C" {
      //
 
      struct ggml_backend_i {
@@ -73,11 +79,15 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
 +        void (GGML_CALL *free)(ggml_backend_t backend);
 
          // (optional) asynchronous tensor data access
--        void (*set_tensor_async)(ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
--        void (*get_tensor_async)(ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
+-        void (*set_tensor_async)   (ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
+-        void (*get_tensor_async)   (ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
+-        void (*set_tensor_2d_async)(ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
+-        void (*get_tensor_2d_async)(ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
 -        bool (*cpy_tensor_async)(ggml_backend_t backend_src, ggml_backend_t backend_dst, const struct ggml_tensor * src, struct ggml_tensor * dst);
-+        void (GGML_CALL *set_tensor_async)(ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
-+        void (GGML_CALL *get_tensor_async)(ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
++        void (GGML_CALL *set_tensor_async)   (ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size);
++        void (GGML_CALL *get_tensor_async)   (ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size);
++        void (GGML_CALL *set_tensor_2d_async)(ggml_backend_t backend,       struct ggml_tensor * tensor, const void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
++        void (GGML_CALL *get_tensor_2d_async)(ggml_backend_t backend, const struct ggml_tensor * tensor,       void * data, size_t offset, size_t size, size_t n_copies, size_t stride_tensor, size_t stride_data);
 +        bool (GGML_CALL *cpy_tensor_async)(ggml_backend_t backend_src, ggml_backend_t backend_dst, const struct ggml_tensor * src, struct ggml_tensor * dst);
 
          // (optional) complete all pending operations (required if the backend supports async operations)
@@ -115,7 +125,7 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
      };
 
      struct ggml_backend {
-@@ -139,46 +143,46 @@ extern "C" {
+@@ -159,46 +163,46 @@ extern "C" {
      //       the current functions to obtain the properties can remain, since they are more convenient for often used properties
      struct ggml_backend_device_i {
          // device name: short identifier for this device, such as "CPU" or "CUDA0"
@@ -177,7 +187,7 @@ diff --git a/ggml/src/ggml-backend-impl.h b/ggml/src/ggml-backend-impl.h
      };
 
      struct ggml_backend_device {
-@@ -192,15 +196,15 @@ extern "C" {
+@@ -212,15 +216,15 @@ extern "C" {
      //
 
      struct ggml_backend_reg_i {