第14章聚类分析.ppt
《第14章聚类分析.ppt》由会员分享,可在线阅读,更多相关《第14章聚类分析.ppt(27页珍藏版)》请在一课资料网上搜索。
1、第14章 聚类分析,本章主要内容,概述 Cluster过程 FastClus过程 Tree过程,概述,聚类分析(Cluster Analysis)相关研究 数理分类法(Numerical Taxonomy) Q 分析法(Q-Analysis) 分节法(Partitioning) 拓扑法(Typology) 自由原型识别法(Unsupervised Pattern Recognition) 分类法(Classification) 系统方法(Systematics) 团摺法(Clumping) 计程学(Taximetrics) 分类描述学(Taxonorics) 花序分类学(Botryology)
2、 形状分类学(Morphometrics) 疾病描述学(Noxography) 疾病分类学(Nosology) 菊状分类学(Aciniformics) 集群分类法(Agminatics) 等,概述,聚类分析是一组分类方法的统称,是研究各种事物和现象分类的统计方法,如土壤、作物品种分类等。 聚类分析把相似的变量或观察个体归为一类,也称为一个集群(Cluster),而有较大差异的则归为不同的类别。 具体地说,就是根据已知数据,计算各个观察个体或变量之间亲疏关系的统计量(距离或相关系数),再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等)合并观察个体或变量,使同一类内差别较小,类与类之间
3、差别较大,最终分为若干类别,概述,一般我们把分类依据的条件称为指标或变量,而把要对其进行分类的对象称为样品。 根据聚类对象(变量或观察个体)的不同,聚类分析可分为指标聚类(Clustering for variables)和样品聚类(Clustering for individuals)。 聚类有多种方法:如系统聚类法(Hierarchical Cluster,谱系聚类法)、相斥式聚类法(Disjoint Cluster、分离聚类法)、调优法、图论法等,概述,聚类方法系统聚类法: 首先,每一个样品分别作为独立的类别,计算各类别之间的距离,距离最近的两个类别形成一个新类别; 然后,重新计算各类别
4、之间的距离,再将距离最近的两个类别合并为一个新类别; 如此反复,直到所有的类别合并到一个类别中。 最后,将结果绘制成一张聚类树形图,直观地反映聚类过程,概述,聚类方法相斥式聚类法: 基于“上限-中心点-重心”原理。 首先,将样品初步分为U类,作为聚类个数的“上限”,从中确定其“中心点”,作为迭代起点。 然后,考察一个样品,将它移到最靠近的那个中心,形成“聚类”,并算出每一类的“重心”,再考察一个样品,将其移到另一类。 若能减少样品对于各自中心的离差之和,则把此两类的中心同时移到新的重心,并且以重新计算的重心取代原来的重心。 如此反复迭代,直到再也无法降低样品与重心离差之和为止,移动终止,形成各
5、个聚类,概述,聚类依据: 距离法,就是将每一样品看成m维空间的一个点,这样研究样品间的关系就可以变为研究m维空间中点与点间的关系,而点与点间的关系常用距离来表示。 相似系数法,越相近的样品,它们的相似系数越接近1(或-1),而彼此无关的样品则相似系数接近0。这样就可以根据相似系数的值,把比较相似的样品归为一类,而把不相似的样品归为不同的类,概述,SAS中常用的聚类过程: Cluster过程 FastClus过程 VarClus过程 Tree过程 AceClus过程,Cluster过程,可使用11种距离中的任一种对SAS数据集中的观测(样品)进行系统聚类。 输入数据可以是原始数值或观测之间的距离
6、。 若数据为原始数值,默认的距离计算方法为欧氏距离。如果要使用其他的距离计算方法,可以先调用Distance过程将数据转换为相应的距离数据,再调用Cluster过程进行分析。 Cluster不太适合大样本数据聚类,Cluster过程,语句格式,Cluster过程,Cluster语句选项(部分,Cluster过程,类间距离的定义方法(选项method,Cluster过程,FastClus过程,利用K-平均数法(K-Means)对观测进行相斥式聚类分析。 聚类依据同样是样品间的距离。默认情况下,以欧氏距离作为分类依据。 适用于大样本数据分析,观测可多达10万个。 FastClus分析结果不会产生树
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 14 聚类分析
