Track model loading duration in RunMetrics and include it in timing reports

orionpapadakis · orionpapadakis · commit 623f613fc0a6 · 2026-05-05T15:31:38.000+03:00
diff --git a/src/main/java/org/beehive/gpullama3/LlamaApp.java b/src/main/java/org/beehive/gpullama3/LlamaApp.java
@@ -35,9 +35,7 @@ private static void runSingleInstruction(Model model, Sampler sampler, Options o
      */
     static void main(String[] args) throws IOException {
         Options options = Options.parseOptions(args);
-        long loadStart = System.nanoTime();
         Model model = loadModel(options);
-        RunMetrics.setLoadDuration(System.nanoTime() - loadStart);
         Sampler sampler = createSampler(model, options);
 
         if (options.interactive()) {
diff --git a/src/main/java/org/beehive/gpullama3/auxiliary/RunMetrics.java b/src/main/java/org/beehive/gpullama3/auxiliary/RunMetrics.java
@@ -120,9 +120,11 @@ public static void printMetrics() {
         if (Boolean.parseBoolean(System.getProperty("llama.EnableTimingForTornadoVMInit", "false"))
                 && m.tornadoPlanCreationNs > 0) {
             System.err.printf(
+                    "GGUF Model Load: %.2f ms%n" +
                     "Compilation & CodeGen: %.2f ms%n" +
                     "Warmup: %.2f ms%n" +
                     "Read-only weights Copy-in: %.2f ms%n",
+                    m.loadDurationNs          / 1_000_000.0,
                     m.tornadoPlanCreationNs   / 1_000_000.0,
                     m.tornadoJitNs            / 1_000_000.0,
                     m.readOnlyWeightsCopyInNs / 1_000_000.0);
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java
@@ -1,6 +1,7 @@
 package org.beehive.gpullama3.model.loader;
 
 import org.beehive.gpullama3.Options;
+import org.beehive.gpullama3.auxiliary.RunMetrics;
 import org.beehive.gpullama3.tensor.GGMLType;
 import org.beehive.gpullama3.tensor.GGUF;
 import org.beehive.gpullama3.tensor.*;
@@ -91,24 +92,24 @@ public static Model loadModel(Options options) throws IOException {
         int contextLength = options.maxTokens();
         boolean useTornadovm = options.useTornadovm();
 
-        // initial load of metadata from gguf file
+        long start = System.nanoTime();
         GGUF gguf = GGUF.loadGGUFMetadata(ggufPath);
-        // detect model type
         ModelType modelType = detectModelType(gguf.getMetadata());
-        // model type-specific load
-        return modelType.loadModel(gguf.getFileChannel(), gguf, contextLength, useTornadovm);
+        Model model = modelType.loadModel(gguf.getFileChannel(), gguf, contextLength, useTornadovm);
+        RunMetrics.setLoadDuration(System.nanoTime() - start);
+        return model;
     }
 
     /**
      * For compatibility with langchain4j and quarkus.
      */
     public static Model loadModel(Path ggufPath, int contextLength, boolean loadWeights, boolean useTornadovm) throws IOException {
-        // initial load of metadata from gguf file
+        long start = System.nanoTime();
         GGUF gguf = GGUF.loadGGUFMetadata(ggufPath);
-        // detect model type
         ModelType modelType = detectModelType(gguf.getMetadata());
-        // model type-specific load
-        return modelType.loadModel(gguf.getFileChannel(), gguf, contextLength, useTornadovm);
+        Model model = modelType.loadModel(gguf.getFileChannel(), gguf, contextLength, useTornadovm);
+        RunMetrics.setLoadDuration(System.nanoTime() - start);
+        return model;
     }
 
     /**