tetherto · gianni-cor · May 11, 2026 · May 3, 2026 · May 4, 2026 · May 4, 2026
diff --git a/.github/workflows/integration-mobile-test-qvac-lib-infer-llamacpp-llm.yml b/.github/workflows/integration-mobile-test-qvac-lib-infer-llamacpp-llm.yml
@@ -1145,13 +1145,14 @@ jobs:
             local pool_arn="$1"
             local name="$2"
             local spec_arn="$3"
+            local job_timeout="${4:-60}"
             aws devicefarm schedule-run \
               --project-arn "$PROJECT_ARN" \
               --device-pool-arn "$pool_arn" \
               --app-arn "$APP_ARN" \
               --name "$name" \
               --test "type=APPIUM_NODE,testPackageArn=$TEST_PACKAGE_ARN,testSpecArn=$spec_arn" \
-              --execution-configuration jobTimeoutMinutes=60 \
+              --execution-configuration jobTimeoutMinutes=$job_timeout \
               --query 'run.arn' --output text
           }
 
@@ -1166,7 +1167,7 @@ jobs:
             RUN_ARN_1=$(schedule_run_with_pool "$POOL_ARN" "$RUN_NAME-Android-GroupA" "$TEST_SPEC_ARN_A")
             echo "✅ Android Group A scheduled: $RUN_ARN_1"
 
-            RUN_ARN_2=$(schedule_run_with_pool "$POOL_ARN" "$RUN_NAME-Android-GroupB" "$TEST_SPEC_ARN_B")
+            RUN_ARN_2=$(schedule_run_with_pool "$POOL_ARN" "$RUN_NAME-Android-GroupB" "$TEST_SPEC_ARN_B" 90)
             echo "✅ Android Group B scheduled: $RUN_ARN_2"
 
             echo "run_arn_1=$RUN_ARN_1" >> $GITHUB_OUTPUT

diff --git a/packages/qvac-lib-infer-llamacpp-embed/CMakeLists.txt b/packages/qvac-lib-infer-llamacpp-embed/CMakeLists.txt
@@ -40,6 +40,10 @@ set(CMAKE_POSITION_INDEPENDENT_CODE ON)
 set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
 
 find_path(QVAC_LIB_INFERENCE_ADDON_CPP_INCLUDE_DIRS "qvac-lib-inference-addon-cpp/JsInterface.hpp")
+# llama-targets.cmake transitively requires OpenSSL::SSL via cpp-httplib's
+# IMPORTED interface. Make OpenSSL discoverable before find_package(llama)
+# so the target chain resolves on local builds.
+find_package(OpenSSL)
 find_package(llama CONFIG REQUIRED)
 
 if(WIN32)

diff --git a/packages/qvac-lib-infer-llamacpp-embed/addon/src/model-interface/BertModel.cpp b/packages/qvac-lib-infer-llamacpp-embed/addon/src/model-interface/BertModel.cpp
@@ -481,7 +481,7 @@ void BertModel::init(common_params& params) {
   llama_numa_init(params.numa);
 
   const std::string errorWhenFailed = toString(UnableToLoadModel);
-  common_init_result llamaInit = initFromConfig(
+  common_init_result_ptr llamaInit = initFromConfig(
       params,
       params.model.path,
       singleGgufStreamedFiles_,
@@ -493,8 +493,8 @@ void BertModel::init(common_params& params) {
 
   init_.params = params;
   init_.result = std::move(llamaInit);
-  model_ = init_.result.model.get();
-  ctx_ = init_.result.context.get();
+  model_ = init_.result->model();
+  ctx_ = init_.result->context();
   vocab_ = llama_model_get_vocab(model_);
   batch_ = llama_batch_init(init_.params.n_batch, 0, 1);
   pooling_type = llama_pooling_type(ctx_);

diff --git a/packages/qvac-lib-infer-llamacpp-embed/addon/src/model-interface/BertModel.hpp b/packages/qvac-lib-infer-llamacpp-embed/addon/src/model-interface/BertModel.hpp
@@ -54,7 +54,7 @@ class BertEmbeddings {
 
 struct BertCommonInitResult {
   common_params params;
-  common_init_result result;
+  common_init_result_ptr result;
 };
 
 /// @brief Instantiates a BERT language model. An open source architecture

diff --git a/packages/qvac-lib-infer-llamacpp-embed/vcpkg-configuration.json b/packages/qvac-lib-infer-llamacpp-embed/vcpkg-configuration.json
@@ -1,4 +1,7 @@
 {
+  "overlay-ports": [
+    "./vcpkg/ports"
+  ],
   "default-registry": {
     "kind": "git",
     "baseline": "803c0d119ea002694963e89237c207ff6ecf47f6",

diff --git a/packages/qvac-lib-infer-llamacpp-embed/vcpkg.json b/packages/qvac-lib-infer-llamacpp-embed/vcpkg.json
@@ -10,7 +10,7 @@
     },
     {
       "name": "qvac-lib-inference-addon-cpp",
-      "version>=": "1.1.5#1"
+      "version>=": "1.1.7"
     },
     {
       "name": "qvac-lint-cpp",

diff --git a/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/android-vulkan-version.cmake b/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/android-vulkan-version.cmake
@@ -0,0 +1,36 @@
+# Function to detect Vulkan version from NDK vulkan_core.h
+function(detect_ndk_vulkan_version)
+    string(TOLOWER "${CMAKE_HOST_SYSTEM_NAME}" host_system_name_lower)
+
+    # CMAKE_HOST_SYSTEM_PROCESSOR is unavailable here. Use a glob pattern to complete the folder instead. 
+    file(GLOB host_dirs LIST_DIRECTORIES true "$ENV{ANDROID_NDK_HOME}/toolchains/llvm/prebuilt/${host_system_name_lower}-*")
+    if(host_dirs)
+        list(GET host_dirs 0 host_dir)
+        get_filename_component(host_arch "${host_dir}" NAME)
+        set(vulkan_core_h "$ENV{ANDROID_NDK_HOME}/toolchains/llvm/prebuilt/${host_arch}/sysroot/usr/include/vulkan/vulkan_core.h")
+    else()
+        message(FATAL "Could not find NDK host directory for ${host_system_name_lower}")
+    endif()
+
+    if(NOT vulkan_core_h)
+        message(FATAL "vulkan_core.h not found, using default version")
+    endif()
+
+    file(READ "${vulkan_core_h}" header_content)
+    string(REGEX MATCH "VK_HEADER_VERSION ([0-9]+)" version_match "${header_content}")
+    if(version_match)
+        set(header_version_3 "${CMAKE_MATCH_1}")
+    else()
+        message(FATAL "Could not extract VK_HEADER_VERSION from vulkan_core.h, using default: ${vulkan_version}")
+    endif()
+
+     # Extract major.minor version from VK_HEADER_VERSION_COMPLETE for download URL
+    string(REGEX MATCH "VK_HEADER_VERSION_COMPLETE VK_MAKE_API_VERSION\\(([0-9]+), ([0-9]+), ([0-9]+)" version_match "${header_content}")
+    if(version_match)
+        set(major "${CMAKE_MATCH_2}")
+        set(minor "${CMAKE_MATCH_3}")
+        set(vulkan_version "${major}.${minor}.${header_version_3}" PARENT_SCOPE)
+    else()
+        message(FATAL "Could not extract major.minor version from vulkan_core.h, using default: ${vulkan_version}")
+    endif()
+endfunction()
diff --git a/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/portfile.cmake b/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/portfile.cmake
@@ -0,0 +1,114 @@
+vcpkg_from_github(
+  OUT_SOURCE_PATH SOURCE_PATH
+  REPO tetherto/qvac-fabric-llm.cpp
+  REF 02807f4010f8e08f50216796374b65c339e2c9ab
+  SHA512 1818cc4dd008208480d4fedc8d3d7c6510065e912ae742eeba438dcb21f79eb7b40f6b37c0f69789a450e54dba75a3e32b8a1809b41edd99a9b5b840ccd4d4f5
+)
+
+vcpkg_check_features(
+  OUT_FEATURE_OPTIONS FEATURE_OPTIONS
+  FEATURES
+    force-profiler FORCE_GGML_VK_PERF_LOGGER
+)
+
+if (VCPKG_TARGET_IS_ANDROID)
+  # NDK only comes with C headers.
+  # Make sure C++ header exists, it will be used by ggml tensor library.
+  # Need to determine installed vulkan version and download correct headers
+  include(${CMAKE_CURRENT_LIST_DIR}/android-vulkan-version.cmake)
+  detect_ndk_vulkan_version()
+  message(STATUS "Using Vulkan C++ wrappers from version: ${vulkan_version}")
+  file(DOWNLOAD
+    "https://github.com/KhronosGroup/Vulkan-Headers/archive/refs/tags/v${vulkan_version}.tar.gz"
+    "${SOURCE_PATH}/vulkan-sdk-${vulkan_version}.tar.gz"
+    TLS_VERIFY ON
+  )
+
+  file(ARCHIVE_EXTRACT
+    INPUT "${SOURCE_PATH}/vulkan-sdk-${vulkan_version}.tar.gz"
+    DESTINATION "${SOURCE_PATH}"
+    PATTERNS "*.hpp"
+  )
+
+  file(RENAME
+    "${SOURCE_PATH}/Vulkan-Headers-${vulkan_version}"
+    "${SOURCE_PATH}/ggml/src/ggml-vulkan/vulkan_cpp_wrapper"
+  )
+endif()
+
+set(PLATFORM_OPTIONS)
+
+if (VCPKG_TARGET_IS_OSX OR VCPKG_TARGET_IS_IOS)
+  list(APPEND PLATFORM_OPTIONS -DGGML_METAL=ON)
+  if (VCPKG_TARGET_IS_IOS)
+    list(APPEND PLATFORM_OPTIONS -DGGML_BLAS=OFF -DGGML_ACCELERATE=OFF)
+  endif()
+else()
+  list(APPEND PLATFORM_OPTIONS -DGGML_VULKAN=ON)
+endif()
+
+if(VCPKG_TARGET_IS_ANDROID)
+  set(DL_BACKENDS ON)
+  list(APPEND PLATFORM_OPTIONS
+    -DGGML_BACKEND_DL=ON
+    -DGGML_CPU_ALL_VARIANTS=ON
+    -DGGML_CPU_REPACK=ON)
+else()
+  set(DL_BACKENDS OFF)
+endif()
+
+if (VCPKG_TARGET_IS_ANDROID)
+  # Keep VK_KHR_cooperative_matrix and VK_NV_cooperative_matrix2 enabled so the
+  # Mali NaN workaround (qvac-fabric c79a8851 — dequant-to-F16 + F32 accumulation
+  # for TQ1/TQ2 on ARM) can take effect. With coopmat disabled, ctx->device->
+  # coopmat_support is false and the fix's branches are skipped.
+  # OpenCL stays enabled for Adreno (which doesn't depend on these toggles).
+  list(APPEND PLATFORM_OPTIONS -DGGML_OPENCL=ON)
+endif()
+
+vcpkg_cmake_configure(
+  SOURCE_PATH "${SOURCE_PATH}"
+  DISABLE_PARALLEL_CONFIGURE
+  OPTIONS
+    -DGGML_NATIVE=OFF
+    -DGGML_CCACHE=OFF
+    -DGGML_OPENMP=OFF
+    -DGGML_LLAMAFILE=OFF
+    -DLLAMA_MTMD=ON
+    -DLLAMA_CURL=OFF
+    -DLLAMA_BUILD_TESTS=OFF
+    -DLLAMA_BUILD_TOOLS=OFF
+    -DLLAMA_BUILD_EXAMPLES=OFF
+    -DLLAMA_BUILD_SERVER=OFF
+    -DLLAMA_ALL_WARNINGS=OFF
+    ${PLATFORM_OPTIONS}
+    ${FEATURE_OPTIONS}
+)
+
+vcpkg_cmake_install()
+vcpkg_cmake_config_fixup(
+  PACKAGE_NAME llama)
+vcpkg_cmake_config_fixup(
+  PACKAGE_NAME ggml)
+
+vcpkg_copy_pdbs()
+vcpkg_fixup_pkgconfig()
+
+file(MAKE_DIRECTORY "${CURRENT_PACKAGES_DIR}/tools/${PORT}")
+file(RENAME "${CURRENT_PACKAGES_DIR}/bin/convert_hf_to_gguf.py" "${CURRENT_PACKAGES_DIR}/tools/${PORT}/convert-hf-to-gguf.py")
+file(INSTALL "${SOURCE_PATH}/gguf-py" DESTINATION "${CURRENT_PACKAGES_DIR}/tools/${PORT}")
+file(RENAME "${CURRENT_PACKAGES_DIR}/bin/vulkan_profiling_analyzer.py" "${CURRENT_PACKAGES_DIR}/tools/${PORT}/vulkan_profiling_analyzer.py")
+
+if (NOT VCPKG_BUILD_TYPE)
+  file(REMOVE "${CURRENT_PACKAGES_DIR}/debug/bin/convert_hf_to_gguf.py")
+endif()
+
+file(REMOVE_RECURSE "${CURRENT_PACKAGES_DIR}/debug/include")
+file(REMOVE_RECURSE "${CURRENT_PACKAGES_DIR}/debug/share")
+
+if (NOT DL_BACKENDS AND VCPKG_LIBRARY_LINKAGE MATCHES "static")
+  file(REMOVE_RECURSE "${CURRENT_PACKAGES_DIR}/bin")
+  file(REMOVE_RECURSE "${CURRENT_PACKAGES_DIR}/debug/bin")
+endif()
+
+vcpkg_install_copyright(FILE_LIST "${SOURCE_PATH}/LICENSE")
diff --git a/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/vcpkg.json b/packages/qvac-lib-infer-llamacpp-embed/vcpkg/ports/qvac-fabric/vcpkg.json
@@ -0,0 +1,27 @@
+{
+  "name": "qvac-fabric",
+  "version": "7248.2.3",
+  "port-version": 1,
+  "description": "LLM inference in C/C++",
+  "homepage": "https://github.com/tetherto/qvac-fabric-llm.cpp",
+  "license": "MIT",
+  "dependencies": [
+    {
+      "name": "opencl",
+      "platform": "android"
+    },
+    {
+      "name": "vcpkg-cmake",
+      "host": true
+    },
+    {
+      "name": "vcpkg-cmake-config",
+      "host": true
+    }
+  ],
+  "features": {
+    "force-profiler": {
+      "description": "Force vk performance logging in ggml"
+    }
+  }
+}
diff --git a/packages/qvac-lib-infer-llamacpp-llm/CMakeLists.txt b/packages/qvac-lib-infer-llamacpp-llm/CMakeLists.txt
@@ -32,6 +32,10 @@ configure_file(${VCPKG_INSTALLED_PATH}/share/qvac-lint-cpp/.clang-tidy
 
 find_path(PICOJSON_INCLUDE_DIRS "picojson/picojson.h")
 find_path(QVAC_LIB_INFERENCE_ADDON_CPP_INCLUDE_DIRS "qvac-lib-inference-addon-cpp/JsInterface.hpp")
+# llama-targets.cmake transitively requires OpenSSL::SSL via cpp-httplib's
+# IMPORTED interface. Make OpenSSL discoverable before find_package(llama)
+# so the target chain resolves on local builds.
+find_package(OpenSSL)
 find_package(llama CONFIG REQUIRED)
 # Required to call llama.cpp's `json_schema_to_grammar()` for per-request
 # JSON-Schema → GBNF conversion. The function signature lives in libcommon