Skip to content

Files

Failed to load latest commit information.

Latest commit

 Cannot retrieve latest commit at this time.

History

History

chapter8

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
Spark 构建聚类模型
无监督模型:
在聚类中,我们对数据进行分割,这样每个数据样本就属于某个部分,成为类簇,类簇相当于类别,只不过不知道真实的类别。
应用场景:
基于行为特征或者元数据将用户或者客户分成不同的组
对网站的内容或者零售店中的商品进行分组
找到相似的基因
在生态学中进行群体分割
创建图像分割
聚类的类型:
K-mean:K-mean试图将一系列样本分割成k个不同的类簇,最小化多有类簇中的方差值和,WCSS(within cluster sum of squared errors),随即初始化
k-均值变种:fuzzy K-means(模糊k均值),每个样本可以属于多个类簇并被表示为与每个类簇的对应关系。,每个样本会被表示为k维的关系向量,对应与每一个类簇
的关系
混合模型:模糊k-均值的拓展,假设样本的数据是由某种概率分布生成的。比如,我们可以假设数据是由k个独立的高斯概率分布生成的。所以每个样本点由k个概率分布的权重。
层次聚类:是一种结构化的聚类方法,得到多层的聚类效果。其中每个类簇可能包含多个儿子类簇,所以也叫树形聚类
凝聚聚类:每个样本自身作为一个类簇,计算与其他类簇的相似度或距离,找到最相似的类簇,然后合并,重复上述过程,直到最后最上层只有一个类簇
分裂式聚类:与上面相反
内部评价指标:
WCSS,Davies-Bouldin,Dunn,轮廓系数,尽量使类簇内部的样本距离尽可能接近,类间尽可能远。
对于簇中的每个向量。分别计算它们的轮廓系数。
对于其中的一个点 i 来说:
计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)
计算 b(i) = min (i向量到各个非本身所在簇的所有点的平均距离)
那么 i 向量轮廓系数就为:
可见轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。 [1] 
将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。
a(i) :i向量到同一簇内其他点不相似程度的平均值
b(i) :i向量到其他簇的平均不相似程度的最小值
外部评估指标:
Rand measure,F-measure,JACCARD INDEX