Skip to content

Latest commit

 

History

History
193 lines (97 loc) · 8.27 KB

customer-segmentation-using-k-means-clustering.md

File metadata and controls

193 lines (97 loc) · 8.27 KB

使用 K 均值聚类进行客户细分

原文:www.kdnuggets.com/2019/11/customer-segmentation-using-k-means-clustering.html

评论

客户细分是将市场细分为具有相似特征的离散客户群体。客户细分可以成为识别未满足客户需求的有力手段。利用上述数据,公司可以通过开发独特的吸引人产品和服务来超越竞争对手。

企业最常见的客户群体细分方式包括:

  1. 人口统计信息,如性别、年龄、家庭和婚姻状况、收入、教育和职业。

  2. 地理信息,这取决于公司的范围。对于本地化企业,这些信息可能涉及特定的城镇或县。对于较大的公司,这可能意味着客户所在的城市、州或甚至国家。

  3. 心理图谱数据,如社会阶层、生活方式和个性特征。

  4. 行为数据,如消费和消费习惯、产品/服务使用情况以及期望的收益。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 加速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT


客户细分的优势

  1. 确定合适的产品定价。

  2. 制定定制化的营销活动。

  3. 设计一个最佳分销策略。

  4. 选择用于部署的具体产品特性。

  5. 优先考虑新产品开发工作。

K 均值聚类算法

  1. 指定簇的数量 K

  2. 通过首先打乱数据集,然后随机选择 K 个数据点作为质心进行初始化。

  3. 不断迭代,直到质心没有变化,即数据点分配到簇的情况不再变化。

图示

K 均值聚类,其中 K=3

挑战

您拥有一家超市购物中心,通过会员卡,您获得了一些基本的客户数据,如客户 ID、年龄、性别、年收入和消费评分。您希望了解客户,比如哪些是目标客户,以便可以传达给营销团队并相应地规划策略。

数据

该项目是 购物中心客户细分数据 竞赛的一部分,该竞赛在 Kaggle 上举行。

数据集可以从 kaggle 网站下载,网址在这里

环境和工具

  1. scikit-learn

  2. seaborn

  3. numpy

  4. pandas

  5. matplotlib

代码在哪里?

不再多言,让我们开始编码。完整项目可以在 github 上找到,网址在这里

我开始加载所有库和依赖项。数据集中的列包括客户 id、性别、年龄、收入和消费评分。

我删除了 id 列,因为它似乎与上下文无关。还绘制了客户的年龄频率。

接下来,我制作了一个箱线图,以更好地可视化消费评分和年收入的分布范围。消费评分的范围明显大于年收入的范围。

我制作了一个条形图,以检查数据集中男性和女性人口的分布情况。女性人口明显超过男性。

接下来,我制作了一个条形图,以检查每个年龄组中客户的分布情况。显然,26-35 岁年龄组的客户数量超过了其他任何年龄组。

我继续制作了一个条形图,以可视化根据消费评分的客户数量。大多数客户的消费评分在 41-60 之间。

我还制作了一个条形图,以可视化根据年收入的客户数量。大多数客户的年收入在 60000 到 90000 之间。

接下来,我将簇内平方和(WCSS)与簇的数量(K 值)进行绘图,以找出最佳簇数量。WCSS 衡量观察值与其簇质心的距离总和,其公式如下。

其中Yi是观察值Xi的质心。主要目标是最大化簇的数量,在极限情况下,每个数据点都成为自己的簇质心。

肘部法则

计算不同 k 值的簇内平方误差(WSS),并选择 WSS 首次开始减少的 k 值。在 WSS 与 k 的图中,这表现为一个肘部。

最优的 K 值通过肘部法则找到为 5。

最后,我制作了一个 3D 图,以可视化客户的消费评分和年收入。数据点被分成 5 个类别,并用不同颜色表示,如 3D 图所示。

结果

结论

K 均值聚类是最受欢迎的聚类算法之一,通常是从事聚类任务的实践者首先使用的工具,用以了解数据集的结构。K 均值的目标是将数据点分组为独特的、互不重叠的子组。K 均值聚类的一个主要应用是客户细分,以更好地理解客户,从而增加公司的收入。

参考文献/进一步阅读

客户细分的聚类算法背景 在今天竞争激烈的世界中,了解客户行为并根据...

[您所需的 K 均值聚类最全面指南

概述 K 均值聚类是数据科学中的一个简单而强大的算法。在现实世界中有大量的应用...](https://www.analyticsvidhya.com/blog/2019/08/comprehensive-guide-k-means-clustering/?source=post_page-----d33964f238c3----------------------)

[机器学习方法:K 均值聚类算法

2015 年 7 月 21 日 作者:EduPristine k 均值聚类(又称为细分)是最常见的机器学习...](https://www.edupristine.com/blog/beyond-k-means?source=post_page-----d33964f238c3----------------------)

离开之前

对应的源代码可以在这里找到。

[abhinavsagar/Kaggle-Solutions

Kaggle 竞赛的示例笔记本。显微镜图像的自动分割是医学...](https://github.com/abhinavsagar/Kaggle-Solutions?source=post_page-----d33964f238c3----------------------)

联系方式

如果你想跟踪我最新的文章和项目,关注我的 Medium。以下是我的一些联系方式:

祝阅读愉快、学习愉快、编码愉快。

个人简介:Abhinav Sagar 是 VIT Vellore 的高年级本科生。他对数据科学、机器学习及其在实际问题中的应用感兴趣。

原文。经授权转载。

相关:

  • R 用户的客户细分

  • 如何使用 Flask 轻松部署机器学习模型

  • 如何在 Python 中构建自己的逻辑回归模型

更多相关话题