Files
Failed to load latest commit information.
chapter8
Folders and files
Name | Name | Last commit date | ||
---|---|---|---|---|
parent directory.. | ||||
Spark 构建聚类模型 无监督模型: 在聚类中,我们对数据进行分割,这样每个数据样本就属于某个部分,成为类簇,类簇相当于类别,只不过不知道真实的类别。 应用场景: 基于行为特征或者元数据将用户或者客户分成不同的组 对网站的内容或者零售店中的商品进行分组 找到相似的基因 在生态学中进行群体分割 创建图像分割 聚类的类型: K-mean:K-mean试图将一系列样本分割成k个不同的类簇,最小化多有类簇中的方差值和,WCSS(within cluster sum of squared errors),随即初始化 k-均值变种:fuzzy K-means(模糊k均值),每个样本可以属于多个类簇并被表示为与每个类簇的对应关系。,每个样本会被表示为k维的关系向量,对应与每一个类簇 的关系 混合模型:模糊k-均值的拓展,假设样本的数据是由某种概率分布生成的。比如,我们可以假设数据是由k个独立的高斯概率分布生成的。所以每个样本点由k个概率分布的权重。 层次聚类:是一种结构化的聚类方法,得到多层的聚类效果。其中每个类簇可能包含多个儿子类簇,所以也叫树形聚类 凝聚聚类:每个样本自身作为一个类簇,计算与其他类簇的相似度或距离,找到最相似的类簇,然后合并,重复上述过程,直到最后最上层只有一个类簇 分裂式聚类:与上面相反 内部评价指标: WCSS,Davies-Bouldin,Dunn,轮廓系数,尽量使类簇内部的样本距离尽可能接近,类间尽可能远。 对于簇中的每个向量。分别计算它们的轮廓系数。 对于其中的一个点 i 来说: 计算 a(i) = average(i向量到所有它属于的簇中其它点的距离) 计算 b(i) = min (i向量到各个非本身所在簇的所有点的平均距离) 那么 i 向量轮廓系数就为: 可见轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。 [1] 将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。 a(i) :i向量到同一簇内其他点不相似程度的平均值 b(i) :i向量到其他簇的平均不相似程度的最小值 外部评估指标: Rand measure,F-measure,JACCARD INDEX