ikawrakow
diff --git a/‎cmake/FindNCCL.cmake‎
Lines changed: 90 additions & 0 deletions b/‎cmake/FindNCCL.cmake‎
Lines changed: 90 additions & 0 deletions
diff --git a/‎ggml/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎ggml/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎ggml/include/ggml.h‎
Lines changed: 14 additions & 0 deletions b/‎ggml/include/ggml.h‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎ggml/src/CMakeLists.txt‎
Lines changed: 15 additions & 0 deletions b/‎ggml/src/CMakeLists.txt‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎ggml/src/ggml-backend.cpp‎
Lines changed: 57 additions & 73 deletions b/‎ggml/src/ggml-backend.cpp‎
Lines changed: 57 additions & 73 deletions
@@ -0,0 +1,90 @@
+# Find the nccl libraries
+#
+# The following variables are optionally searched for defaults
+#  NCCL_ROOT: Base directory where all NCCL components are found
+#  NCCL_INCLUDE_DIR: Directory where NCCL header is found
+#  NCCL_LIB_DIR: Directory where NCCL library is found
+#
+# The following are set after configuration is done:
+#  NCCL_FOUND
+#  NCCL_INCLUDE_DIRS
+#  NCCL_LIBRARIES
+#
+# The path hints include CUDA_TOOLKIT_ROOT_DIR seeing as some folks
+# install NCCL in the same location as the CUDA toolkit.
+# See https://github.com/caffe2/caffe2/issues/1601
+
+set(NCCL_INCLUDE_DIR $ENV{NCCL_INCLUDE_DIR} CACHE PATH "Folder contains NVIDIA NCCL headers")
+set(NCCL_LIB_DIR $ENV{NCCL_LIB_DIR} CACHE PATH "Folder contains NVIDIA NCCL libraries")
+set(NCCL_VERSION $ENV{NCCL_VERSION} CACHE STRING "Version of NCCL to build with")
+
+if ($ENV{NCCL_ROOT_DIR})
+  message(WARNING "NCCL_ROOT_DIR is deprecated. Please set NCCL_ROOT instead.")
+endif()
+list(APPEND NCCL_ROOT $ENV{NCCL_ROOT_DIR} ${CUDA_TOOLKIT_ROOT_DIR})
+# Compatible layer for CMake <3.12. NCCL_ROOT will be accounted in for searching paths and libraries for CMake >=3.12.
+list(APPEND CMAKE_PREFIX_PATH ${NCCL_ROOT})
+
+find_path(NCCL_INCLUDE_DIRS
+  NAMES nccl.h
+  HINTS ${NCCL_INCLUDE_DIR})
+
+if (USE_STATIC_NCCL)
+  MESSAGE(STATUS "USE_STATIC_NCCL is set. Linking with static NCCL library.")
+  SET(NCCL_LIBNAME "nccl_static")
+  if (NCCL_VERSION)  # Prefer the versioned library if a specific NCCL version is specified
+    set(CMAKE_FIND_LIBRARY_SUFFIXES ".a.${NCCL_VERSION}" ${CMAKE_FIND_LIBRARY_SUFFIXES})
+  endif()
+else()
+  SET(NCCL_LIBNAME "nccl")
+  if (NCCL_VERSION)  # Prefer the versioned library if a specific NCCL version is specified
+    set(CMAKE_FIND_LIBRARY_SUFFIXES ".so.${NCCL_VERSION}" ${CMAKE_FIND_LIBRARY_SUFFIXES})
+  endif()
+endif()
+
+find_library(NCCL_LIBRARIES
+  NAMES ${NCCL_LIBNAME}
+  HINTS ${NCCL_LIB_DIR})
+
+include(FindPackageHandleStandardArgs)
+find_package_handle_standard_args(NCCL DEFAULT_MSG NCCL_INCLUDE_DIRS NCCL_LIBRARIES)
+
+if(NCCL_FOUND)  # obtaining NCCL version and some sanity checks
+  set (NCCL_HEADER_FILE "${NCCL_INCLUDE_DIRS}/nccl.h")
+  message (STATUS "Determining NCCL version from ${NCCL_HEADER_FILE}...")
+  set (OLD_CMAKE_REQUIRED_INCLUDES ${CMAKE_REQUIRED_INCLUDES})
+  list (APPEND CMAKE_REQUIRED_INCLUDES ${NCCL_INCLUDE_DIRS})
+  include(CheckCXXSymbolExists)
+  check_cxx_symbol_exists(NCCL_VERSION_CODE nccl.h NCCL_VERSION_DEFINED)
+
+  if (NCCL_VERSION_DEFINED)
+    set(file "${PROJECT_BINARY_DIR}/detect_nccl_version.cc")
+    file(WRITE ${file} "
+      #include <iostream>
+      #include <nccl.h>
+      int main()
+      {
+        std::cout << NCCL_MAJOR << '.' << NCCL_MINOR << '.' << NCCL_PATCH << std::endl;
+        int x;
+        ncclGetVersion(&x);
+        return x == NCCL_VERSION_CODE;
+      }
+")
+    try_run(NCCL_VERSION_MATCHED compile_result ${PROJECT_BINARY_DIR} ${file}
+          RUN_OUTPUT_VARIABLE NCCL_VERSION_FROM_HEADER
+          CMAKE_FLAGS  "-DINCLUDE_DIRECTORIES=${NCCL_INCLUDE_DIRS}"
+          LINK_LIBRARIES ${NCCL_LIBRARIES})
+    if (NOT NCCL_VERSION_MATCHED)
+      message(FATAL_ERROR "Found NCCL header version and library version do not match! \
+(include: ${NCCL_INCLUDE_DIRS}, library: ${NCCL_LIBRARIES}) Please set NCCL_INCLUDE_DIR and NCCL_LIB_DIR manually.")
+    endif()
+    message(STATUS "NCCL version: ${NCCL_VERSION_FROM_HEADER}")
+  else()
+    message(STATUS "NCCL version < 2.3.5-5")
+  endif ()
+  set (CMAKE_REQUIRED_INCLUDES ${OLD_CMAKE_REQUIRED_INCLUDES})
+
+  message(STATUS "Found NCCL (include: ${NCCL_INCLUDE_DIRS}, library: ${NCCL_LIBRARIES})")
+  mark_as_advanced(NCCL_ROOT_DIR NCCL_INCLUDE_DIRS NCCL_LIBRARIES)
+endif()
+
@@ -97,6 +97,7 @@ endif()
 option(GGML_LASX        "ggml: enable lasx"             ON)
 option(GGML_LSX         "ggml: enable lsx"              ON)
 option(GGML_SVE         "ggml: enable SVE"              OFF)
+option(GGML_NCCL        "ggml: enable NCCL"             ON)
 
 if (WIN32)
     set(GGML_WIN_VER "0x602" CACHE STRING "ggml: Windows Version")
 
@@ -689,6 +689,9 @@ extern "C" {
 
         GGML_OP_GLU,
 
+        GGML_OP_REDUCE,
+        GGML_OP_FAKE_CPY,
+
         GGML_OP_COUNT,
     };
 
@@ -3034,6 +3037,17 @@ extern "C" {
         struct ggml_tensor ** splits;
     } ggml_split_tensor_t;
 
+    GGML_API struct ggml_tensor * ggml_reduce(
+            struct ggml_context         * ctx,
+            struct ggml_tensor         ** a,
+            int                           n,
+            enum ggml_op                  op);
+
+    GGML_API struct ggml_tensor * ggml_fake_cpy(
+            struct ggml_context         * ctx,
+            struct ggml_tensor          * dst,
+            struct ggml_tensor          * src);
+
 #ifdef  __cplusplus
 }
 #endif
@@ -497,6 +497,21 @@ if (GGML_CUDA)
                 set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} CUDA::cuda_driver) # required by cuDeviceGetAttribute(), cuMemGetAllocationGranularity(...), ...
             endif()
         endif()
+
+        if (GGML_NCCL)
+            find_package(NCCL)
+            if (NCCL_FOUND)
+                message("==================== NCCL found!")
+                message("NCCL_LIBRARIES = ${NCCL_LIBRARIES}")
+                message("NCCL_INCLUDE_DIRS = ${NCCL_INCLUDE_DIRS}")
+                set(GGML_EXTRA_LIBS ${GGML_EXTRA_LIBS} ${NCCL_LIBRARIES})
+                set(GGML_EXTRA_INCLUDES ${GGML_EXTRA_INCLUDES} ${NCCL_INCLUDE_DIRS})
+                add_compile_definitions(GGML_USE_NCCL)
+            else()
+                message("==================== NCCL NOT found -> building wihout NCCL support")
+            endif()
+        endif()
+
         if (NOT GGML_MUSA)
             set(CMAKE_CUDA_USE_RESPONSE_FILE_FOR_INCLUDES 0)
             set(CMAKE_CUDA_USE_RESPONSE_FILE_FOR_LIBRARIES 0)
 
@@ -1414,13 +1414,59 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
         // do not overwrite user assignments
         if (*leaf_backend_id == -1) {
             *leaf_backend_id = ggml_backend_sched_backend_id_from_cur(sched, leaf);
-            //printf("Pass 1: assigned backend %d to leaf %d, %s\n", *leaf_backend_id, i, graph->leafs[i]->name);
         }
     }
 
     for (int i = 0; i < graph->n_nodes; i++) {
         struct ggml_tensor * node = graph->nodes[i];
         int * node_backend_id = &tensor_backend_id(node);
+        if (node->op == GGML_OP_REDUCE) {
+            auto view_src = node->view_src;
+            int src_id = -1;
+            for (int j = 0; j < node->op_params[1]; ++j) {
+                if (node->src[j]) {
+                    int * this_node_backend_id = &tensor_backend_id(node->src[j]);
+                    if (*this_node_backend_id == -1) {
+                        *this_node_backend_id = j;
+                    } else {
+                        GGML_ASSERT(*this_node_backend_id == j);
+                    }
+                    if (view_src == node->src[j]) {
+                        src_id = j;
+                    }
+                }
+            }
+            if (src_id >= 0) {
+                int * this_node_backend_id = &tensor_backend_id(view_src);
+                *this_node_backend_id = tensor_backend_id(node->src[src_id]);
+                *node_backend_id = *this_node_backend_id;
+            }
+        }
+        else if (node->op == GGML_OP_MUL && node->src[0]->op == GGML_OP_NORM) {
+            // This is a hack for Cohere2. Without this hack the scheduler creates
+            // totally nonsensical splits for that arch
+            int * src1_id = &tensor_backend_id(node->src[1]);
+            if (*src1_id >= 0) {
+                int * src0_id = &tensor_backend_id(node->src[0]);
+                int * dst_id  = &tensor_backend_id(node);
+                *src0_id = *src1_id;
+                *dst_id  = *src1_id;
+                // For some reason that I don't understand, we can have norm backend already assigned
+                // at this point. How? That's why this more logical approach of first checking is commented out
+                //if (*src0_id < 0) {
+                //    *src0_id = *src1_id;
+                //} else {
+                //    printf("Oops: backend_id_src0(%s) = %d, backend_id_src1(%s) = %d\n", node->src[0]->name, *src0_id, node->src[1]->name, *src1_id);
+                //    //GGML_ASSERT(*src0_id == *src1_id);
+                //}
+                //if (*dst_id < 0) {
+                //    *dst_id = *src1_id;
+                //} else {
+                //    printf("Oops: backend_id_dst(%s) = %d, backend_id_src1(%s) = %d\n", node->name, *dst_id, node->src[1]->name, *src1_id);
+                //    //GGML_ASSERT(*dst_id == *src1_id);
+                //}
+            }
+        }
         // do not overwrite user assignments
         if (*node_backend_id == -1) {
             *node_backend_id = ggml_backend_sched_backend_id_from_cur(sched, node);
@@ -1652,6 +1698,8 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
             // check if we should start a new split based on the sources of the current node
             bool need_new_split = false;
             if ((node->op == GGML_OP_ADD && node->op_params[0] == 0xff) ||
+                 node->op == GGML_OP_REDUCE ||
+                 node->op == GGML_OP_FAKE_CPY ||
                  node->op_params[GGML_MAX_OP_PARAMS / sizeof(int32_t) - 1] == 0xff) {
                 need_new_split = true;
             }
@@ -1739,6 +1787,13 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                 if (src_backend_id != cur_backend_id && !ggml_backend_sched_buffer_supported(sched, src, cur_backend_id)) {
                     // create a copy of the input in the split's backend
                     if (tensor_id_copy(src_id, cur_backend_id, 0) == NULL) {
+                        if (node->op == GGML_OP_REDUCE) {
+                            //printf("setting tensor_id_copy(reduce, %zu, %d, %s) to %s\n", src_id, cur_backend_id, node->name, src->name);
+                            tensor_id_copy(src_id, cur_backend_id, 0) = src;
+                        } else if (node->op == GGML_OP_FAKE_CPY && src->op == GGML_OP_REDUCE) {
+                            //printf("setting tensor_id_copy(fake_cpy, %zu, %d, %s) to %s\n", src_id, cur_backend_id, node->name, src->src[j]->name);
+                            tensor_id_copy(src_id, cur_backend_id, 0) = src->src[j];
+                        } else {
                         ggml_backend_t backend = sched->backends[cur_backend_id];
                         for (int c = 0; c < sched->n_copies; c++) {
                             struct ggml_tensor * tensor_copy = ggml_dup_tensor_layout(sched->ctx, src);
@@ -1753,6 +1808,7 @@ static void ggml_backend_sched_split_graph(ggml_backend_sched_t sched, struct gg
                         int n_inputs = split->n_inputs++;
                         GGML_ASSERT(n_inputs < GGML_SCHED_MAX_SPLIT_INPUTS);
                         split->inputs[n_inputs] = src;
+                        }
                     }
                     node->src[j] = tensor_id_copy(src_id, cur_backend_id, sched->cur_copy);
                 }
@@ -2027,80 +2083,8 @@ static void ggml_backend_sched_copy_inputs(ggml_backend_sched_t sched, ggml_back
     }
 }
 
-static ggml_status ggml_backend_sched_compute_splits_sm_graph(ggml_backend_sched_t sched) {
-    std::vector<int32_t> ids;
-    std::vector<uint32_t> unique_ids;
-    ggml_tensor * last_ids_tensor = nullptr;
-
-    std::array<bool, GGML_SCHED_MAX_BACKENDS> needs_sync{{true}};
-
-    auto splits = sched->splits;
-
-    std::vector<ggml_backend_sched_split *> this_split;
-    for (int i = 0; i < sched->n_splits; ++i) {
-        auto split_i = &splits[i];
-        this_split.clear();
-        this_split.push_back(split_i);
-        for (int j = i+1; j < sched->n_splits; ++j) {
-            auto split_j = &splits[j];
-            if (split_i->backend_id == split_j->backend_id) {
-                break;
-            }
-            int n_nodes = std::min(split_i->graph.n_nodes, split_j->graph.n_nodes);
-            bool same = true;
-            for (int k = 0; k < n_nodes; ++k) {
-                if (split_i->graph.nodes[k]->op != split_j->graph.nodes[k]->op) {
-                    same = false; break;
-                }
-            }
-            if (!same) {
-                break;
-            }
-            this_split.push_back(split_j);
-        }
-        if (false) {
-            auto split = this_split.front();
-            if (this_split.size() == 1) {
-                printf("=== Split %d with %d inputs on backend %d\n", i, split->n_inputs, split->backend_id);
-            } else {
-                printf("=== Split %d with %d inputs on backends", i, split->n_inputs);
-                for (int j = 0; j < (int)this_split.size(); ++j) printf(" %d", this_split[j]->backend_id);
-                printf("\n");
-            }
-            for (int j = 0; j < split->graph.n_nodes; ++j) {
-                printf("  %d  %s(%s)\n", j, ggml_op_name(split->graph.nodes[j]->op), split->graph.nodes[j]->name);
-            }
-        }
-        for (auto split : this_split) {
-            ggml_backend_sched_copy_inputs(sched, split, needs_sync, ids, unique_ids, last_ids_tensor);
-        }
-        for (auto split : this_split) {
-            auto split_backend_id = split->backend_id;
-            if (split->n_inputs > 0) {
-                needs_sync[split_backend_id] = true;
-            }
-            auto split_backend = sched->backends[split_backend_id];
-            auto ec = ggml_backend_graph_compute_async(split_backend, &split->graph);
-            if (ec != GGML_STATUS_SUCCESS) {
-                return ec;
-            }
-            if (split->n_inputs > 0) {
-                if (sched->events[split_backend_id][sched->cur_copy] != NULL) {
-                    ggml_backend_event_record(sched->events[split_backend_id][sched->cur_copy]);
-                }
-            }
-        }
-        i += this_split.size() - 1;
-    }
-    return GGML_STATUS_SUCCESS;
-}
-
 static enum ggml_status ggml_backend_sched_compute_splits(ggml_backend_sched_t sched) {
 
-    if (false && sched->split_mode_graph) {
-        return ggml_backend_sched_compute_splits_sm_graph(sched);
-    }
-
     std::array<bool, GGML_SCHED_MAX_BACKENDS> needs_sync{{true}};
     std::array<bool, GGML_SCHED_MAX_BACKENDS> own_cpy{{false}};