KMeans + SKMeans; Unify intialisation options

weefuzzy · weefuzzy · commit 668bb9b633b1 · 2025-04-20T15:35:19.000+01:00
diff --git a/include/flucoma/algorithms/public/KMeans.hpp b/include/flucoma/algorithms/public/KMeans.hpp
@@ -18,27 +18,145 @@ under the European Union’s Horizon 2020 research and innovation programme
 #include "../../data/TensorTypes.hpp"
 #include "../../data/FluidMemory.hpp"
 #include <Eigen/Core>
+#include <cassert>
 #include <queue>
+#include <random>
 #include <string>
 
 namespace fluid {
 namespace algorithm {
 
+namespace _impl::kmeans_init {
+
+/// @brief Initialize means based on randomly assigning each point to a cluster
+/// @param input input data
+/// @param k number of clusters
+/// @return a 2D Eigen array of means
+Eigen::ArrayXXd randomPartition(const Eigen::MatrixXd& input, index k)
+{
+  // Means come from randomly assigning points and taking average
+  std::random_device              rd;
+  std::mt19937                    gen(rd());
+  std::uniform_int_distribution<index> distrib(0, k - 1);
+
+  Eigen::ArrayXXd means = Eigen::ArrayXXd::Zero(k, input.cols());
+  Eigen::ArrayXd assignments(input.rows()); 
+  Eigen::ArrayXd mask = Eigen::ArrayXd::Constant(input.rows(), 1.0);
+
+  std::generate(assignments.begin(), assignments.end(),
+                [&distrib, &gen]() { return distrib(gen); });
+
+  for(index i = 0; i < k; ++i)
+  {
+    means.row(i) =
+        (input.array().colwise() * (assignments == i).select(mask, 0.0))
+            .colwise()
+            .mean();
+  }
+  
+  return means; 
+}
+
+/// @brief Initialize means by sampling `k` random points ('Forgy initialization')
+/// @param input input data
+/// @param k number of clusters
+/// @return 2D Eigen expression of sampled input points
+auto randomPoints(const Eigen::MatrixXd& input, index k)
+{
+  // Means come from k random points 
+  std::random_device              rd;
+  std::mt19937                    gen(rd());
+  std::uniform_int_distribution<index> distrib(0, input.rows() - 1);
+
+  std::vector<index> rows(asUnsigned(k));
+  std::generate(begin(rows), end(rows),
+                [&distrib, &gen]() { return distrib(gen); });
+  return input(rows, Eigen::all);
+}
+
+auto squareEuclidiean = [](Eigen::Ref<const Eigen::MatrixXd> const& a,
+                          Eigen::Ref<const Eigen::MatrixXd> const& b,
+                          bool squared = true) {
+  double a_sqnorm = a.squaredNorm(); 
+  double b_sqnorm = b.squaredNorm(); 
+  Eigen::ArrayXXd result = (a * b.transpose()).array();                             
+  result *= -2; 
+  result += (a_sqnorm + b_sqnorm);                         
+  return squared ? result: result.sqrt(); 
+};
+
+auto cosine = [](auto a, auto b){
+  return 1.0 - (a * b.transpose()).array();  
+}; 
+
+/// @brief initilaize means using markov chain montecarlo approximation of Kmeans++ (kmc2)
+/// @tparam DistanceFn function object that performs distance calculation
+/// @param input 
+/// @param k 
+/// @param distance 
+/// @return 
+template<class DistanceFn>
+auto akmc2(Eigen::MatrixXd const& input, index k, DistanceFn distance)
+{
+  std::random_device rd;
+  std::mt19937       gen(rd());
+  Eigen::MatrixXd centres(k, input.cols()); 
+  
+  // First mean sampled at random from input 
+  const index        centre0 =
+      std::uniform_int_distribution<index>(0, input.rows() - 1)(gen);
+  centres.row(0) = input.row(centre0);
+
+  Eigen::ArrayXd q = distance(input, centres.row(0)).pow(2);   
+  q /= (2 * q.sum() + 2 * q.rows());
+  std::discrete_distribution  proposalDistribution(q.begin(), q.end());
+
+  index    chainLength = 200;
+  auto candidateIdx = std::vector<index>(asUnsigned(chainLength)); 
+  Eigen::VectorXd candidateProbs(chainLength); 
+  std::uniform_real_distribution<double> uniform;
+
+  std::generate_n(centres.rowwise().begin() + 1, k - 1, [&, i = 0]() mutable {
+    std::generate(
+        candidateIdx.begin(), candidateIdx.end(),
+        [&gen, &proposalDistribution]() { return proposalDistribution(gen); });
+
+    Eigen::VectorXd proposalProbabilities = q(candidateIdx);
+
+    // changes size every iteration
+    Eigen::ArrayXXd dist = distance(input(candidateIdx, Eigen::all),
+                                    centres(Eigen::seq(0, i++), Eigen::all));
+    candidateProbs = dist.rowwise().minCoeff() / q(candidateIdx);
+
+    auto start = candidateProbs.begin();
+    auto current = start;
+    for (auto it = start; it != candidateProbs.end(); ++it)
+    {
+      if (*current == 0.0 || *it / *current > uniform(gen)) current = it;
+    }
+    return input.row(candidateIdx[asUnsigned(std::distance(start, current))]);
+  });
+  return centres; 
+}
+} //_impl::kmeans_init
+
 class KMeans
 {
 
 public:
+  enum class InitMethod {randomPartion, randomPoint, randomSampling}; 
+  
   void clear()
   {
     mMeans.setZero();
-    mAssignments.setZero();
+    mAssignments.resize(0);
     mTrained = false;
   }
 
   bool initialized() const { return mTrained; }
 
   void train(const FluidDataSet<std::string, double, 1>& dataset, index k,
-             index maxIter)
+             index maxIter, InitMethod init)
   {
     using namespace Eigen;
     using namespace _impl;
@@ -49,12 +167,24 @@ class KMeans
     {
       mK = k;
       mDims = dataset.pointSize();
-      mMeans = ArrayXXd::Zero(mK, mDims);
+
+      using namespace _impl::kmeans_init; 
+      switch(init)
+      {
+        case InitMethod::randomSampling: 
+        { 
+          mMeans = akmc2(dataPoints, mK, squareEuclidiean); 
+          break; 
+        }
+        case InitMethod::randomPoint: 
+        {
+            mMeans = randomPoints(dataPoints, mK); 
+            break; 
+        }
+        default: mMeans = randomPartition(dataPoints, mK); 
+      }
+
       mEmpty = std::vector<bool>(asUnsigned(mK), false);
-      mAssignments =
-          ((0.5 + (0.5 * ArrayXf::Random(dataPoints.rows()))) * (mK - 1))
-              .round()
-              .cast<int>();
     }
 
     while (maxIter-- > 0)
@@ -185,6 +315,7 @@ class KMeans
 
   bool changed(const Eigen::VectorXi& newAssignments) const
   {
+    if (mAssignments.rows() == 0) return true; 
     auto dif = (newAssignments - mAssignments).cwiseAbs().sum();
     return dif > 0;
   }
diff --git a/include/flucoma/algorithms/public/SKMeans.hpp b/include/flucoma/algorithms/public/SKMeans.hpp
@@ -17,6 +17,7 @@ under the European Union’s Horizon 2020 research and innovation programme
 #include "../../data/FluidTensor.hpp"
 #include "../../data/TensorTypes.hpp"
 #include <Eigen/Core>
+#include <cassert>
 #include <queue>
 #include <random>
 #include <string>
@@ -26,26 +27,20 @@ namespace algorithm {
 
 class SKMeans : public KMeans
 {
-
+  using MatrixLike = Eigen::Ref<const Eigen::MatrixXd>; 
 public:
 
-  enum Initializer { 
-    // Random partition assigns points to random clusters at init
-    Random_Partition,  
-    //'Forgy' initializes means with k random data points
-    Forgy   
-  }; 
+  using KMeans::InitMethod; 
 
   void train(const FluidDataSet<std::string, double, 1>& dataset, index k,
-             index maxIter, unsigned initialize )
+             index maxIter, InitMethod initialize )
   {
     using namespace Eigen;
     using namespace _impl;
     assert(!mTrained || (dataset.pointSize() == mDims && mK == k));
     MatrixXd dataPoints =
         asEigen<Matrix>(dataset.getData()).rowwise().normalized();
-    MatrixXd dataPointsT = dataPoints.transpose();
-    if (mTrained) { mAssignments = assignClusters(dataPointsT);}
+    if (mTrained) { mAssignments = assignClusters(dataPoints.transpose());}
     else
     {
       mK = k;
@@ -55,7 +50,7 @@ class SKMeans : public KMeans
 
     while (maxIter-- > 0)
     {
-      mEmbedding = mMeans.matrix() * dataPointsT;
+      mEmbedding.noalias() = mMeans.matrix() * dataPoints.transpose();      
       auto assignments = assignClusters(mEmbedding);
       if (mAssignments.rows() && !changed(assignments)) { break; }
       else
@@ -66,7 +61,6 @@ class SKMeans : public KMeans
     mTrained = true;
   }
 
-
   void encode(RealMatrixView data, RealMatrixView out,
                  double alpha = 0.25) const
   {
@@ -78,47 +72,43 @@ class SKMeans : public KMeans
   }
 
 private:
-  void initMeans(Eigen::MatrixXd& dataPoints, unsigned initializer)
+  void initMeans(Eigen::MatrixXd& dataPoints, InitMethod init)
   {
     using namespace Eigen;
     mMeans = ArrayXXd::Zero(mK, mDims);
 
-    switch (initializer)
+    using namespace _impl::kmeans_init;
+    switch(init)
     {
-    default:
-    case Initializer::Random_Partition:
-      mAssignments =
-          ((0.5 + (0.5 * ArrayXd::Random(dataPoints.rows()))) * (mK - 1))
-              .round()
-              .cast<int>();
-      mEmbedding = MatrixXd::Zero(mK, dataPoints.rows());
-      for (index i = 0; i < dataPoints.rows(); i++)
-        mEmbedding(mAssignments(i), i) = 1;
-      computeMeans(dataPoints);
-      break;
-
-    case Initializer::Forgy: // means from random selection of data points
-      ArrayXidx dataIndices =
-          ArrayXidx::LinSpaced(dataPoints.rows(), 0, dataPoints.rows() - 1);
-      std::vector<Index> samples(mK);
-      std::sample(dataIndices.begin(), dataIndices.end(), samples.begin(), mK,
-                  std::mt19937{std::random_device{}()});
-      mMeans = dataPoints(samples, Eigen::all);
-      break;
-    }
+      case InitMethod::randomSampling: 
+      { 
+        mMeans = akmc2(dataPoints, mK,cosine); 
+        break; 
+      }
+      case InitMethod::randomPoint: 
+      {
+          mMeans = randomPoints(dataPoints, mK); 
+          break; 
+      }
+      default: { 
+        mMeans = randomPartition(dataPoints, mK); 
+        mMeans.matrix().rowwise().normalize(); 
+      }
+    }    
   }
 
   void updateEmbedding()
   {
-    for (index i = 0; i < mAssignments.cols(); i++)
+    for (index i = 0; i < mAssignments.rows(); i++)
     {
       mEmbedding.col(i).setZero();
       mEmbedding(mAssignments(i), i) = 1.0;
     }
   }
 
 
-  Eigen::VectorXi assignClusters(Eigen::MatrixXd& embedding) const
+  Eigen::VectorXi
+  assignClusters(MatrixLike const& embedding) const
   {
     Eigen::VectorXi assignments = Eigen::VectorXi::Zero(embedding.cols());
     for (index i = 0; i < embedding.cols(); i++)
@@ -131,9 +121,9 @@ class SKMeans : public KMeans
   }
 
 
-  void computeMeans(Eigen::MatrixXd& dataPoints)
+  void computeMeans(MatrixLike const& dataPoints)
   {
-    mMeans = mEmbedding * dataPoints;
+    mMeans.matrix().noalias() = mEmbedding * dataPoints;
     mMeans.matrix().rowwise().normalize();
   }
 
diff --git a/include/flucoma/clients/nrt/KMeansClient.hpp b/include/flucoma/clients/nrt/KMeansClient.hpp
@@ -20,18 +20,21 @@ namespace fluid {
 namespace client {
 namespace kmeans {
 
+
 constexpr auto KMeansParams = defineParameters(
     StringParam<Fixed<true>>("name", "Name"),
     LongParam("numClusters", "Number of Clusters", 4, Min(1)),
-    LongParam("maxIter", "Max number of Iterations", 100, Min(1)));
+    LongParam("maxIter", "Max number of Iterations", 100, Min(1)),
+    EnumParam("initialize", "Initialize method", 0, "Random Assignment",
+              "Random Points", "Sampling"));
 
 class KMeansClient : public FluidBaseClient,
                      OfflineIn,
                      OfflineOut,
                      ModelObject,
                      public DataClient<algorithm::KMeans>
 {
-  enum { kName, kNumClusters, kMaxIter };
+  enum {kName, kNumClusters, kMaxIter, kInit}; 
   ParameterTrackChanges<index> mTracker; 
 public:
   using string = std::string;
@@ -69,6 +72,8 @@ class KMeansClient : public FluidBaseClient,
     return {};
   }
 
+ using InitMethod = algorithm::KMeans::InitMethod; 
+
   MessageResult<IndexVector> fit(InputDataSetClientRef datasetClient)
   {
     index k = get<kNumClusters>();
@@ -78,8 +83,8 @@ class KMeansClient : public FluidBaseClient,
     auto dataSet = datasetClientPtr->getDataSet();
     if (dataSet.size() == 0) return Error<IndexVector>(EmptyDataSet);
     if (k <= 1) return Error<IndexVector>(SmallK);
-    if(mTracker.changed(k)) mAlgorithm.clear(); 
-    mAlgorithm.train(dataSet, k, maxIter);
+    if(mTracker.changed(k)) mAlgorithm.clear();
+    mAlgorithm.train(dataSet, k, maxIter, static_cast<InitMethod>(get<kInit>()));
     IndexVector assignments(dataSet.size());
     mAlgorithm.getAssignments(assignments);
     return getCounts(assignments, k);
@@ -98,8 +103,8 @@ class KMeansClient : public FluidBaseClient,
     if (!labelsetClientPtr) return Error<IndexVector>(NoLabelSet);
     if (k <= 1) return Error<IndexVector>(SmallK);
     if (maxIter <= 0) maxIter = 100;
-    if(mTracker.changed(k)) mAlgorithm.clear(); 
-    mAlgorithm.train(dataSet, k, maxIter);
+    if(mTracker.changed(k)) mAlgorithm.clear();
+    mAlgorithm.train(dataSet, k, maxIter, static_cast<InitMethod>(get<kInit>()));
     IndexVector assignments(dataSet.size());
     mAlgorithm.getAssignments(assignments);
     StringVectorView ids = dataSet.getIds();
@@ -167,7 +172,7 @@ class KMeansClient : public FluidBaseClient,
     if (dataSet.size() == 0) return Error<IndexVector>(EmptyDataSet);
     if (k <= 1) return Error<IndexVector>(SmallK);
     if (maxIter <= 0) maxIter = 100;
-    mAlgorithm.train(dataSet, k, maxIter);
+    mAlgorithm.train(dataSet, k, maxIter, static_cast<InitMethod>(get<kInit>()));
     IndexVector assignments(dataSet.size());
     mAlgorithm.getAssignments(assignments);
     transform(srcClient, dstClient);
diff --git a/include/flucoma/clients/nrt/SKMeansClient.hpp b/include/flucoma/clients/nrt/SKMeansClient.hpp