fix: detect Ollama vision capability from capabilities array

dishit-wednesday · dishit7 · dishit-wednesday · commit cd729ce6c3c6 · 2026-06-20T13:41:16.000+05:30
Newer Ollama versions (v0.6.4+) report multimodal support via a
top-level `capabilities` array (e.g. ["vision", "tools"]) rather than
via model_info keys. The old code only checked model_info, so models
like Gemma 4 were always detected as non-vision.

Now checks capabilities array first, falls back to model_info key scan,
then projector_info keys. Also wires supportsToolCalling from the
capabilities array.

Co-Authored-By: Dishit Karia &lt;hanmadishit74@gmail.com&gt;
diff --git a/src/stores/remoteModelCapabilities.ts b/src/stores/remoteModelCapabilities.ts
@@ -43,10 +43,25 @@ function extractOllamaCapabilities(data: Record<string, unknown>): RemoteModelIn
   let contextLength = 4096;
   let supportsVision = false;
 
+  // Newer Ollama versions expose a top-level `capabilities` array (e.g. ["vision", "tools"]).
+  // Gemma 4 and similar models use this field instead of model_info keys.
+  let supportsToolCalling: boolean | undefined;
+  if (Array.isArray(data.capabilities)) {
+    const caps = data.capabilities as unknown[];
+    supportsVision = caps.includes('vision');
+    supportsToolCalling = caps.includes('tools');
+  }
+
   if (data.model_info && typeof data.model_info === 'object') {
     const parsed = parseModelInfoKeys(data.model_info as Record<string, unknown>);
     if (parsed.contextLength > 0) contextLength = parsed.contextLength;
-    supportsVision = parsed.supportsVision;
+    if (!supportsVision) supportsVision = parsed.supportsVision;
+  }
+
+  // projector_info is present for multimodal models when capabilities array is missing.
+  if (!supportsVision && data.projector_info && typeof data.projector_info === 'object') {
+    const projectorKeys = Object.keys(data.projector_info as Record<string, unknown>);
+    supportsVision = projectorKeys.some(k => k.includes('vision') || k.includes('clip'));
   }
 
   if (contextLength === 4096 && typeof data.parameters === 'string') {
@@ -63,7 +78,7 @@ function extractOllamaCapabilities(data: Record<string, unknown>): RemoteModelIn
     /\.Think|\.Thinking|\.IsThinkSet/.test(template) ||
     /^RENDERER\s/m.test(modelfile);
 
-  return { contextLength, supportsVision, supportsThinking };
+  return { contextLength, supportsVision, supportsToolCalling, supportsThinking };
 }
 
 /**