Clustering Analysis on Wholesale Customers Dataset

This project performs a comparative performance study of clustering algorithms using the Wholesale Customers dataset from the UCI Machine Learning Repository. The analysis leverages different preprocessing techniques, varying cluster sizes, and multiple evaluation metrics to determine the most effective clustering configuration.

📊 Dataset Overview

Name: Wholesale Customers Dataset
Source: UCI Machine Learning Repository
Number of Features: 7
Number of Records: 440
Description: The dataset contains annual spending in monetary units on various product categories for customers from a wholesale distributor.

⚙️ Methodology

💡 Clustering Algorithms Used

K-Means
Hierarchical Clustering (HCLUST)
MeanShift

🔁 Preprocessing Techniques

No Processing
Normalization
Transformation
PCA
Transformation + Normalization (T+N)
Transformation + Normalization + PCA (T+N+PCA)

🔢 Cluster Counts

3 clusters
4 clusters
5 clusters

📐 Evaluation Metrics

Silhouette Score
Calinski-Harabasz Index
Davies-Bouldin Score

✅ Results Summary

Metric	Best Value
Best Algorithm	MEANSHIFT
Best Clusters	3
Best Silhouette	0.9076

All evaluations were performed using the PyCaret library.

📊 Visualizations

All model evaluations are also visualized using grouped bar plots for:

Silhouette Score
Calinski-Harabasz Index
Davies-Bouldin Score

Each model's performance across different preprocessing techniques and cluster sizes is presented.

📁 Files Included

clustering_results.csv – Final result table with all configurations
Saved plots for each metric/model
Jupyter Notebook / Colab Notebook for reproducibility

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
clustering.ipynb		clustering.ipynb
clustering_HCLUST_Calinski-Harabasz.png		clustering_HCLUST_Calinski-Harabasz.png
clustering_HCLUST_Davies-Bouldin.png		clustering_HCLUST_Davies-Bouldin.png
clustering_HCLUST_Silhouette.png		clustering_HCLUST_Silhouette.png
clustering_KMEANS_Calinski-Harabasz.png		clustering_KMEANS_Calinski-Harabasz.png
clustering_KMEANS_Davies-Bouldin.png		clustering_KMEANS_Davies-Bouldin.png
clustering_KMEANS_Silhouette.png		clustering_KMEANS_Silhouette.png
clustering_MEANSHIFT_Calinski-Harabasz.png		clustering_MEANSHIFT_Calinski-Harabasz.png
clustering_MEANSHIFT_Davies-Bouldin.png		clustering_MEANSHIFT_Davies-Bouldin.png
clustering_MEANSHIFT_Silhouette.png		clustering_MEANSHIFT_Silhouette.png
clustering_results.csv		clustering_results.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Clustering Analysis on Wholesale Customers Dataset

📊 Dataset Overview

⚙️ Methodology

💡 Clustering Algorithms Used

🔁 Preprocessing Techniques

🔢 Cluster Counts

📐 Evaluation Metrics

✅ Results Summary

📊 Visualizations

📁 Files Included

About

Uh oh!

Releases

Packages

Languages

PrishaSingh11/Clustering

Folders and files

Latest commit

History

Repository files navigation

Clustering Analysis on Wholesale Customers Dataset

📊 Dataset Overview

⚙️ Methodology

💡 Clustering Algorithms Used

🔁 Preprocessing Techniques

🔢 Cluster Counts

📐 Evaluation Metrics

✅ Results Summary

📊 Visualizations

📁 Files Included

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages