ml-explore
diff --git a/‎mlx/backend/metal/compiled.cpp‎
Lines changed: 2 additions & 2 deletions b/‎mlx/backend/metal/compiled.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎mlx/backend/metal/conv.cpp‎
Lines changed: 8 additions & 8 deletions b/‎mlx/backend/metal/conv.cpp‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎mlx/backend/metal/copy.cpp‎
Lines changed: 2 additions & 2 deletions b/‎mlx/backend/metal/copy.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎mlx/backend/metal/device.cpp‎
Lines changed: 47 additions & 34 deletions b/‎mlx/backend/metal/device.cpp‎
Lines changed: 47 additions & 34 deletions
diff --git a/‎mlx/backend/metal/device.h‎
Lines changed: 17 additions & 4 deletions b/‎mlx/backend/metal/device.h‎
Lines changed: 17 additions & 4 deletions
diff --git a/‎mlx/backend/metal/fft.cpp‎
Lines changed: 1 addition & 1 deletion b/‎mlx/backend/metal/fft.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎mlx/backend/metal/indexing.cpp‎
Lines changed: 3 additions & 3 deletions b/‎mlx/backend/metal/indexing.cpp‎
Lines changed: 3 additions & 3 deletions
@@ -336,7 +336,7 @@ void Compiled::eval_gpu(
     MTL::Size grid_dims(nthreads, 1, 1);
     MTL::Size group_dims(
         std::min(nthreads, kernel->maxTotalThreadsPerThreadgroup()), 1, 1);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   } else {
     size_t dim0 = ndim > 0 ? shape[ndim - 1] : 1;
     size_t dim1 = ndim > 1 ? shape[ndim - 2] : 1;
@@ -347,7 +347,7 @@ void Compiled::eval_gpu(
     }
     auto group_dims = get_block_dims(dim0, dim1, rest);
     MTL::Size grid_dims = MTL::Size(dim0, dim1, rest);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   }
 }
 
 
@@ -59,7 +59,7 @@ void explicit_gemm_conv_ND_gpu(
   MTL::Size grid_dims = MTL::Size(
       conv_params.C, unfolded_shape[1] / conv_params.C, unfolded_shape[0]);
 
-  compute_encoder->dispatchThreads(grid_dims, group_dims);
+  compute_encoder.dispatchThreads(grid_dims, group_dims);
 
   // Reshape weight
   std::vector<int> wt_reshape{implicit_K, implicit_N};
@@ -137,7 +137,7 @@ void explicit_gemm_conv_group_ND_gpu(
   MTL::Size grid_dims = MTL::Size(
       conv_params.C, unfolded_shape[1] / conv_params.C, unfolded_shape[0]);
 
-  compute_encoder->dispatchThreads(grid_dims, group_dims);
+  compute_encoder.dispatchThreads(grid_dims, group_dims);
 
   // Transpose kernel weights so that we can slice them by contiguous chunks
   // of channel groups.
@@ -247,7 +247,7 @@ void slow_conv_2D_gpu(
   compute_encoder.set_output_array(out, 2);
 
   compute_encoder->setBytes(&conv_params, sizeof(MLXConvParams<2>), 3);
-  compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+  compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
 }
 
 void implicit_gemm_conv_2D_gpu(
@@ -352,7 +352,7 @@ void implicit_gemm_conv_2D_gpu(
   compute_encoder->setBytes(&gemm_params, sizeof(ImplicitGemmConv2DParams), 4);
 
   // Launch kernel
-  compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+  compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
 }
 
 void implicit_gemm_conv_2D_general_gpu(
@@ -512,7 +512,7 @@ void implicit_gemm_conv_2D_general_gpu(
       base_w.data(), sizeof(Conv2DGeneralBaseInfo) * base_w.size(), 7);
 
   // Launch kernel
-  compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+  compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
 }
 
 void winograd_conv_2D_gpu(
@@ -613,7 +613,7 @@ void winograd_conv_2D_gpu(
     MTL::Size group_dims = MTL::Size(32, bo, 1);
     MTL::Size grid_dims = MTL::Size(O_c / bo, 1, 1);
 
-    compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+    compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
   }
 
   // Do input transform
@@ -641,7 +641,7 @@ void winograd_conv_2D_gpu(
     MTL::Size group_dims = MTL::Size(32, wn, wm);
     MTL::Size grid_dims = MTL::Size(N_tiles_w, N_tiles_h, N_tiles_n);
 
-    compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+    compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
   }
 
   // Do batched gemm
@@ -689,7 +689,7 @@ void winograd_conv_2D_gpu(
     MTL::Size group_dims = MTL::Size(32, wn, wm);
     MTL::Size grid_dims = MTL::Size(N_tiles_w, N_tiles_h, N_tiles_n);
 
-    compute_encoder->dispatchThreadgroups(grid_dims, group_dims);
+    compute_encoder.dispatchThreadgroups(grid_dims, group_dims);
   }
 }
 
 
@@ -126,7 +126,7 @@ void copy_gpu_inplace(
 
     auto group_dims = get_block_dims(dim0, dim1, rest);
     MTL::Size grid_dims = MTL::Size(dim0, dim1, rest);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   } else {
     size_t nthreads = out.data_size();
     MTL::Size grid_dims = MTL::Size(nthreads, 1, 1);
@@ -135,7 +135,7 @@ void copy_gpu_inplace(
       thread_group_size = nthreads;
     }
     MTL::Size group_dims = MTL::Size(thread_group_size, 1, 1);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   }
 }
 
 
@@ -25,6 +25,7 @@ namespace {
 
 // TODO nicer way to set this or possibly expose as an environment variable
 constexpr int MAX_BUFFERS_PER_QUEUE = 12;
+constexpr int MAX_DISPATCHES_PER_ENCODER = 2;
 
 constexpr const char* default_mtllib_path = METAL_PATH;
 
@@ -37,7 +38,6 @@ auto load_device() {
   }
   return device;
 }
-
 std::pair<MTL::Library*, NS::Error*> load_library_from_path(
     MTL::Device* device,
     const char* path) {
@@ -116,6 +116,33 @@ MTL::Library* load_library(
 
 } // namespace
 
+void CommandEncoder::dispatchThreadgroups(
+    MTL::Size grid_dims,
+    MTL::Size group_dims) {
+  num_dispatches++;
+  enc->dispatchThreadgroups(grid_dims, group_dims);
+  maybe_split();
+}
+
+void CommandEncoder::dispatchThreads(
+    MTL::Size grid_dims,
+    MTL::Size group_dims) {
+  num_dispatches++;
+  enc->dispatchThreads(grid_dims, group_dims);
+  maybe_split();
+}
+
+void CommandEncoder::maybe_split() {
+  if (num_dispatches > MAX_DISPATCHES_PER_ENCODER && !concurrent) {
+    enc->endEncoding();
+    enc->release();
+    num_dispatches = 0;
+    outputs.clear();
+    enc = cbuf->computeCommandEncoder(MTL::DispatchTypeConcurrent);
+    enc->retain();
+  }
+}
+
 Device::Device() {
   auto pool = new_scoped_memory_pool();
   device_ = load_device();
@@ -130,9 +157,6 @@ Device::~Device() {
   for (auto& b : buffer_map_) {
     b.second.second->release();
   }
-  for (auto& e : encoder_map_) {
-    (*e.second)->release();
-  }
   for (auto& k : kernel_map_) {
     k.second->release();
   }
@@ -169,27 +193,26 @@ void Device::increment_command_buffer_ops(int index) {
 
 MTL::CommandBuffer* Device::get_command_buffer(int index) {
   auto bit = buffer_map_.find(index);
-  return (bit == buffer_map_.end()) ? nullptr : bit->second.second;
-}
-
-MTL::CommandBuffer* Device::new_command_buffer(int index) {
-  auto qit = queue_map_.find(index);
-  if (qit == queue_map_.end()) {
-    throw std::runtime_error(
-        "[metal::Device] Attempting to get command buffer for invalid queue.");
-  }
+  if (bit == buffer_map_.end()) {
+    auto qit = queue_map_.find(index);
+    if (qit == queue_map_.end()) {
+      throw std::runtime_error(
+          "[metal::Device] Attempting to get command buffer for invalid queue.");
+    }
 
-  auto cb = qit->second->commandBufferWithUnretainedReferences();
+    auto cb = qit->second->commandBufferWithUnretainedReferences();
 
-  if (!cb) {
-    throw std::runtime_error(
-        "[metal::Device] Unable to create new command buffer");
-  }
+    if (!cb) {
+      throw std::runtime_error(
+          "[metal::Device] Unable to create new command buffer");
+    }
 
-  // Increment ref count so the buffer is not garbage collected
-  cb->retain();
+    // Increment ref count so the buffer is not garbage collected
+    cb->retain();
 
-  return buffer_map_.insert({index, {0, cb}}).first->second.second;
+    bit = buffer_map_.insert({index, {0, cb}}).first;
+  }
+  return bit->second.second;
 }
 
 void Device::commit_command_buffer(int index) {
@@ -200,25 +223,15 @@ void Device::commit_command_buffer(int index) {
 }
 
 void Device::end_encoding(int index) {
-  auto eit = encoder_map_.find(index);
-  if (eit != encoder_map_.end()) {
-    (*eit->second)->endEncoding();
-    (*eit->second)->release();
-    encoder_map_.erase(eit);
-  }
+  encoder_map_.erase(index);
 }
 
 CommandEncoder& Device::get_command_encoder(int index) {
   auto eit = encoder_map_.find(index);
   if (eit == encoder_map_.end()) {
     auto cb = get_command_buffer(index);
-    auto compute_encoder =
-        cb->computeCommandEncoder(MTL::DispatchTypeConcurrent);
-    // Increment ref count so the buffer is not garbage collected
-    compute_encoder->retain();
-    eit = encoder_map_
-              .emplace(index, std::make_unique<CommandEncoder>(compute_encoder))
-              .first;
+    eit =
+        encoder_map_.emplace(index, std::make_unique<CommandEncoder>(cb)).first;
   }
   return *(eit->second);
 }
 
@@ -37,8 +37,10 @@ using MTLFCList =
     std::vector<std::tuple<const void*, MTL::DataType, NS::UInteger>>;
 
 struct CommandEncoder {
-  CommandEncoder(MTL::ComputeCommandEncoder* enc)
-      : enc(enc), concurrent(false) {};
+  CommandEncoder(MTL::CommandBuffer* cbuf) : cbuf(cbuf) {
+    enc = cbuf->computeCommandEncoder(MTL::DispatchTypeConcurrent);
+    enc->retain();
+  };
   CommandEncoder(const CommandEncoder&) = delete;
   CommandEncoder& operator=(const CommandEncoder&) = delete;
 
@@ -89,13 +91,25 @@ struct CommandEncoder {
     }
   }
 
+  void dispatchThreadgroups(MTL::Size grid_dims, MTL::Size group_dims);
+  void dispatchThreads(MTL::Size grid_dims, MTL::Size group_dims);
+
   ConcurrentContext start_concurrent() {
     return ConcurrentContext(*this);
   }
 
+  ~CommandEncoder() {
+    enc->endEncoding();
+    enc->release();
+  }
+
  private:
+  void maybe_split();
+
+  int num_dispatches{0};
+  MTL::CommandBuffer* cbuf;
   MTL::ComputeCommandEncoder* enc;
-  bool concurrent;
+  bool concurrent{false};
   std::unordered_set<MTL::Resource*> outputs;
   std::unordered_set<MTL::Resource*> concurrent_outputs;
 };
@@ -112,7 +126,6 @@ class Device {
   };
 
   void new_queue(int index);
-  MTL::CommandBuffer* new_command_buffer(int index);
   MTL::CommandBuffer* get_command_buffer(int index);
   int get_command_buffer_ops(int index);
   void increment_command_buffer_ops(int index);
 
@@ -97,7 +97,7 @@ void FFT::eval_gpu(const std::vector<array>& inputs, array& out) {
 
     auto group_dims = MTL::Size(1, m, 1);
     auto grid_dims = MTL::Size(batch, m, 1);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   }
   d.get_command_buffer(s.index)->addCompletedHandler(
       [copies](MTL::CommandBuffer*) mutable { copies.clear(); });
 
@@ -107,7 +107,7 @@ void Gather::eval_gpu(const std::vector<array>& inputs, array& out) {
   }
 
   // Launch grid
-  compute_encoder->dispatchThreads(grid_dims, group_dims);
+  compute_encoder.dispatchThreads(grid_dims, group_dims);
 }
 
 void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {
@@ -216,7 +216,7 @@ void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {
     // Launch grid
     MTL::Size grid_dims = MTL::Size(upd_size, nthreads / upd_size, 1);
     MTL::Size group_dims = get_block_dims(upd_size, nthreads / upd_size, 1);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
 
   } else {
     // Collect all idx shapes and strides into one place
@@ -286,7 +286,7 @@ void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {
     // Launch grid
     MTL::Size grid_dims = MTL::Size(upd_size, nthreads / upd_size, 1);
     MTL::Size group_dims = get_block_dims(upd_size, nthreads / upd_size, 1);
-    compute_encoder->dispatchThreads(grid_dims, group_dims);
+    compute_encoder.dispatchThreads(grid_dims, group_dims);
   }
 }
Original file line number	Diff line number	Diff line change
`@@ -336,7 +336,7 @@ void Compiled::eval_gpu(`
`336`	`336`	`MTL::Size grid_dims(nthreads, 1, 1);`
`337`	`337`	`MTL::Size group_dims(`
`338`	`338`	`std::min(nthreads, kernel->maxTotalThreadsPerThreadgroup()), 1, 1);`
`339`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`339`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`340`	`340`	`} else {`
`341`	`341`	`size_t dim0 = ndim > 0 ? shape[ndim - 1] : 1;`
`342`	`342`	`size_t dim1 = ndim > 1 ? shape[ndim - 2] : 1;`
`@@ -347,7 +347,7 @@ void Compiled::eval_gpu(`
`347`	`347`	`}`
`348`	`348`	`auto group_dims = get_block_dims(dim0, dim1, rest);`
`349`	`349`	`MTL::Size grid_dims = MTL::Size(dim0, dim1, rest);`
`350`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`350`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`351`	`351`	`}`
`352`	`352`	`}`
`353`	`353`
Original file line number	Diff line number	Diff line change
`@@ -126,7 +126,7 @@ void copy_gpu_inplace(`
`126`	`126`
`127`	`127`	`auto group_dims = get_block_dims(dim0, dim1, rest);`
`128`	`128`	`MTL::Size grid_dims = MTL::Size(dim0, dim1, rest);`
`129`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`129`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`130`	`130`	`} else {`
`131`	`131`	`size_t nthreads = out.data_size();`
`132`	`132`	`MTL::Size grid_dims = MTL::Size(nthreads, 1, 1);`
`@@ -135,7 +135,7 @@ void copy_gpu_inplace(`
`135`	`135`	`thread_group_size = nthreads;`
`136`	`136`	`}`
`137`	`137`	`MTL::Size group_dims = MTL::Size(thread_group_size, 1, 1);`
`138`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`138`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`139`	`139`	`}`
`140`	`140`	`}`
`141`	`141`
Original file line number	Diff line number	Diff line change
`@@ -97,7 +97,7 @@ void FFT::eval_gpu(const std::vector<array>& inputs, array& out) {`
`97`	`97`
`98`	`98`	`auto group_dims = MTL::Size(1, m, 1);`
`99`	`99`	`auto grid_dims = MTL::Size(batch, m, 1);`
`100`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`100`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`101`	`101`	`}`
`102`	`102`	`d.get_command_buffer(s.index)->addCompletedHandler(`
`103`	`103`	`[copies](MTL::CommandBuffer*) mutable { copies.clear(); });`
Original file line number	Diff line number	Diff line change
`@@ -107,7 +107,7 @@ void Gather::eval_gpu(const std::vector<array>& inputs, array& out) {`
`107`	`107`	`}`
`108`	`108`
`109`	`109`	`// Launch grid`
`110`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`110`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`111`	`111`	`}`
`112`	`112`
`113`	`113`	`void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {`
`@@ -216,7 +216,7 @@ void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {`
`216`	`216`	`// Launch grid`
`217`	`217`	`MTL::Size grid_dims = MTL::Size(upd_size, nthreads / upd_size, 1);`
`218`	`218`	`MTL::Size group_dims = get_block_dims(upd_size, nthreads / upd_size, 1);`
`219`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`219`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`220`	`220`
`221`	`221`	`} else {`
`222`	`222`	`// Collect all idx shapes and strides into one place`
`@@ -286,7 +286,7 @@ void Scatter::eval_gpu(const std::vector<array>& inputs, array& out) {`
`286`	`286`	`// Launch grid`
`287`	`287`	`MTL::Size grid_dims = MTL::Size(upd_size, nthreads / upd_size, 1);`
`288`	`288`	`MTL::Size group_dims = get_block_dims(upd_size, nthreads / upd_size, 1);`
`289`		`- compute_encoder->dispatchThreads(grid_dims, group_dims);`
	`289`	`+ compute_encoder.dispatchThreads(grid_dims, group_dims);`
`290`	`290`	`}`
`291`	`291`	`}`
`292`	`292`