7. 聚类分析
一、聚类分析的概念和类型
聚类分析法(Cluster Analysis)是研究“物以类聚”的 一种现代统计分析方法,在众多的领域中,都需要采 用聚类分析作分类研究。
聚类分析的方法:
- 系统聚类法(hclust)
- 快速聚类法(kmeans)


二、聚类统计量





三、系统聚类法
系统聚类法的基本思想 :
先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。
类间距离计算方法
- 最短距离法(single)
- 最长距离法(complete)
- 中间距离法(median)
- 类平均法(average) 方法
- 重心法(centroid)
- 离差平方和法(Ward

类间距离计算公式


系统聚类法过程

例7-1数据的系统聚类



系统聚类R语言步骤
- 计算距离阵: dist
- 进行系统聚类: hclust
- 绘制聚类图: plot
- 画分类框: rect.hclust
- 确认分类结果: cutree
###【例7.2】续例3.1,研究全国31个省、市、自治区2007年城镇居民生活消费 的分布规律,根据调查资料做区域消费类型划分。











四、kmeans聚类法
kmeans法是一种快速聚类法,这种算法 的基本思想是将每一个样品分配给最近中心 (均值)的类中。
kmeans算法以k为参数,把n个对象分为 k个类,使类内具有较高的相似度,类间的相 似度较低。
概念和原理





五、聚类分析的一些问题
系统聚类分析的特点:
- 综合性
- 形象性
- 客观性
关于kmeans算法:
- kmeans算法只有在类的均值被定义的情况下才能使用
- 对于“噪声”和孤立点是敏感的,这种数据对均值影响极大
关于变量变换:
- 平移变换
- 极差变换
- 标准差变换
- 主成分变换
- 对数变换
参考资料
暨南大学 王斌会老师 《多元统计分析及R语言建模》课件
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
