使用 K 均值聚类进行客户细分

原文：www.kdnuggets.com/2019/11/customer-segmentation-using-k-means-clustering.html

客户细分是将市场细分为具有相似特征的离散客户群体。客户细分可以成为识别未满足客户需求的有力手段。利用上述数据，公司可以通过开发独特的吸引人产品和服务来超越竞争对手。

企业最常见的客户群体细分方式包括：

人口统计信息，如性别、年龄、家庭和婚姻状况、收入、教育和职业。
地理信息，这取决于公司的范围。对于本地化企业，这些信息可能涉及特定的城镇或县。对于较大的公司，这可能意味着客户所在的城市、州或甚至国家。
心理图谱数据，如社会阶层、生活方式和个性特征。
行为数据，如消费和消费习惯、产品/服务使用情况以及期望的收益。

我们的前三大课程推荐

1. 谷歌网络安全证书 - 加速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT

客户细分的优势

确定合适的产品定价。
制定定制化的营销活动。
设计一个最佳分销策略。
选择用于部署的具体产品特性。
优先考虑新产品开发工作。

K 均值聚类算法

指定簇的数量 K。
通过首先打乱数据集，然后随机选择 K 个数据点作为质心进行初始化。
不断迭代，直到质心没有变化，即数据点分配到簇的情况不再变化。

K 均值聚类，其中 K=3

挑战

您拥有一家超市购物中心，通过会员卡，您获得了一些基本的客户数据，如客户 ID、年龄、性别、年收入和消费评分。您希望了解客户，比如哪些是目标客户，以便可以传达给营销团队并相应地规划策略。

数据

该项目是购物中心客户细分数据竞赛的一部分，该竞赛在 Kaggle 上举行。

数据集可以从 kaggle 网站下载，网址在这里。

环境和工具

scikit-learn
seaborn
numpy
pandas
matplotlib

代码在哪里？

不再多言，让我们开始编码。完整项目可以在 github 上找到，网址在这里。

我开始加载所有库和依赖项。数据集中的列包括客户 id、性别、年龄、收入和消费评分。

我删除了 id 列，因为它似乎与上下文无关。还绘制了客户的年龄频率。

接下来，我制作了一个箱线图，以更好地可视化消费评分和年收入的分布范围。消费评分的范围明显大于年收入的范围。

我制作了一个条形图，以检查数据集中男性和女性人口的分布情况。女性人口明显超过男性。

接下来，我制作了一个条形图，以检查每个年龄组中客户的分布情况。显然，26-35 岁年龄组的客户数量超过了其他任何年龄组。

我继续制作了一个条形图，以可视化根据消费评分的客户数量。大多数客户的消费评分在 41-60 之间。

我还制作了一个条形图，以可视化根据年收入的客户数量。大多数客户的年收入在 60000 到 90000 之间。

接下来，我将簇内平方和（WCSS）与簇的数量（K 值）进行绘图，以找出最佳簇数量。WCSS 衡量观察值与其簇质心的距离总和，其公式如下。

其中Yi是观察值Xi的质心。主要目标是最大化簇的数量，在极限情况下，每个数据点都成为自己的簇质心。

肘部法则

计算不同 k 值的簇内平方误差（WSS），并选择 WSS 首次开始减少的 k 值。在 WSS 与 k 的图中，这表现为一个肘部。

最优的 K 值通过肘部法则找到为 5。

最后，我制作了一个 3D 图，以可视化客户的消费评分和年收入。数据点被分成 5 个类别，并用不同颜色表示，如 3D 图所示。

结果

结论

K 均值聚类是最受欢迎的聚类算法之一，通常是从事聚类任务的实践者首先使用的工具，用以了解数据集的结构。K 均值的目标是将数据点分组为独特的、互不重叠的子组。K 均值聚类的一个主要应用是客户细分，以更好地理解客户，从而增加公司的收入。

参考文献/进一步阅读

客户细分的聚类算法背景在今天竞争激烈的世界中，了解客户行为并根据...

[您所需的 K 均值聚类最全面指南

概述 K 均值聚类是数据科学中的一个简单而强大的算法。在现实世界中有大量的应用...](https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/?source=post_page-----d33964f238c3----------------------)

[机器学习方法：K 均值聚类算法

2015 年 7 月 21 日作者：EduPristine k 均值聚类（又称为细分）是最常见的机器学习...](https://www.edupristine.com/blog/beyond-k-means?source=post_page-----d33964f238c3----------------------)

离开之前

对应的源代码可以在这里找到。

[abhinavsagar/Kaggle-Solutions

Kaggle 竞赛的示例笔记本。显微镜图像的自动分割是医学...](https://github.com/abhinavsagar/Kaggle-Solutions?source=post_page-----d33964f238c3----------------------)

联系方式

如果你想跟踪我最新的文章和项目，关注我的 Medium。以下是我的一些联系方式：

个人网站
Linkedin
Medium 个人主页
GitHub
Kaggle

祝阅读愉快、学习愉快、编码愉快。

个人简介：Abhinav Sagar 是 VIT Vellore 的高年级本科生。他对数据科学、机器学习及其在实际问题中的应用感兴趣。

原文。经授权转载。

相关：

R 用户的客户细分
如何使用 Flask 轻松部署机器学习模型
如何在 Python 中构建自己的逻辑回归模型

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!