SPSS19实战之聚类分析|电子爱好者

admin管理员组
文章数量:1566992

2024年5月9日发(作者：)

SPSS19.0实战之聚类分析

这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最

后。CNBlOG网页排版太困难了，又不喜欢live writer……

聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数

据做两种不同的类型的聚类；它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类

方法也采用3种不同方法，来考察对比它们之间的优劣。由于没有样本数据，因此不能根

据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的

大小。

分析数据依然采用线性回归所使用的标准化后的能源消费数据。

1.1 系统聚类

本次实验的系统聚类都是凝聚系统聚类，为了控制变量，都采用平方Euclidean距离。

1.1.1 最短距离聚类法

最短距离法聚类步骤如下：

1. 规定样本间的距离，计算样本两两之间的距离，得到对称矩阵。开始每个样品自成

一类。

2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1，将这两个样

品归并成为一类，记为G1。

3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。

我们在SPSS中实现最短距离分析非常简单。单击“

-->“

”-->“”

”。将弹出如图1-1所示的对话框，设置相应的参数即可。

图1-1 最短距离法

我们的数据已经做过标准化，在“转化值”-->“标准化”选项上选无。

在统计量的聚类成员中选择“无”，因为这是非监督分类，不需要指定最终分出的类个数。在

绘制中选择绘制“树状图”。单击确定，得到以下结果。

1. 表3-1显示了数据的缺失情况：

案例处理汇总

案例

有效

百分比

100.0

缺失

百分比

表1-1 数据汇总

我们的数据经过预处理，所以缺失值个数为0.

2. 由于相关矩阵过于庞大，无法在文档中贴出，得到的是一个非相似矩阵。表1-2是样品

聚类过程。样品21和28在第一步合并为一类，它们之间的非相关系数最小，为0.211。

在下一次合并是第十步。在第五步的时候，样品2、27、14组成一类，出现群集，样品个

数为3。如上类推，可以解释表格。

聚类表

表1-2 聚类过

群集组合首次出现阶群集

程

阶群集 1 群集 2 系数群集 1 群集 2 下一阶

我们可以通过更

1 21 28 .211 0 0 10

2 12 24 .465 0 0 6

加形象直观的树

3 2 27 .491 0 0 5

状图来观察整个

4 13 20 .585 0 0 9

聚类过程和聚类

5 2 14 .645 3 0 6

效果。如图1-2

6 2 12 .678 5 2 7

所示，最短距离

7 2 7 .702 6 0 8

法组内距离小，

8 2 25 .773 7 0 9

但组间距离也较

9 2 13 .916 8 4 11

10 21 29 1.085 1 0 12

小。分类特征不

11 2 18 1.106 9 0 12

够明显，无法凸

12 2 21 1.115 11 10 13

显各个省份的能

13 2 17 1.360 12 0 14

源消耗的特点。

14 2 26 1.564 13 0 15

但是我们可以看

15 2 22 1.627 14 0 16

到广东省能源消

16 2 5 1.649 15 0 17

17 2 8 1.877 16 0 18

耗组成和其他省

18 2 16 3.027 17 0 19

份特别不同，在

19 2 30 3.543 18 0 20

其他方法中也显

20 2 11 4.930 19 0 21

现出来。

21 2 4 5.024 20 0 22

22 2 10 6.445 21 0 24

23 1 9 8.262 0 0 26

24 2 15 10.093 22 0 25

25 2 23 10.096 24 0 26

26 1 2 10.189 23 25 27

27 1 6 11.387 26 0 28

28 1 3 13.153 27 0 29

29 1 19 32.367 28 0 0

总计

百分比

100.0

图1-2 最短距离法聚类图

1.1.2 组间联接聚类

组间联接聚类法定义为两类之间的平均平方距离，即

。类C

和C

合并为下一步的C

则C

与C

距离的

递推公式为：

我们依然贴出组间联接法的聚类表和树状图。

1. 聚类表如表1-3所示，相关解释类似于表1-1所述。

聚类表

群集组合

阶群集 1 群集 2 系数

首次出现阶群集

群集 1 群集 2 下一阶

。

.211

.465

.491

.585

.840

.937

1.105

1.331

1.360

1.495

1.703

1.877

2.133

2.378

3.715

3.926

5.024

5.526

6.445

8.262

8.744

11.508

14.202

14.288

19.822

23.363

26.516

31.210

69.114

表1-2 组间联接聚类法

2. 树状图如图1-3所示，可以看到聚类的组间距离较大，组内距离较小。聚类结果较为理

想。可以看到海南与青海，宁夏自治区，重庆市的能源消耗特点近似，北京、上海两地能源

消耗特点也近似。江浙两地亦然。

最后广东和各地能源消耗特点都不同。

1.1.3 Ward法聚类

Ward即离差平方和法。它的思想是，同类离差平方和较小，类间偏差平方和较大。Ward

方法并类时总是使得并类导致的类内离差平方和增量最小。公式：

递推公式：

我依然贴出ward法聚类表和树状图。

1. 聚类表如表1-4所示，相关解释类似于表1-1所述.

聚类表

阶

群集组合

群集 1 群集 2

21 28

12 24

2 27

13 20

7 12

2 14

17 18

2 29

系数

.106

.338

.584

.876

1.359

1.902

2.582

3.351

首次出现阶群集

群集 1 群集 2

0 0

0 2

3 0

0 0

6 0

下一阶

4.140

5.079

6.290

7.647

9.006

11.211

13.723

16.642

19.865

23.996

30.556

37.154

43.898

52.159

62.103

73.051

86.143

106.442

139.001

177.895

286.000

表1-4 Ward法聚类表

2. 树状图如图1-4所示，我们可以看到这个结果较以上两种方法都为理想，组内距离都很

小，控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗

特点。最后在接近10次迭代，广东被归入山东、山西这两个分别是能源消耗大省和能源产

量大省的一类，说明它们之间的相似度也不大。

图1-4 Ward法聚类树状图

1.2 K-mean聚类

K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先

把被聚对象进行初始分类，然后逐步调整，得到最终K个分类。 K-mean法对离群点敏感

容易扭曲数据分布。

单击“”-->“” -->“”将弹出如图1-5所示的

对话框，我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。

图1-5 K-mean聚类设置

下面输出和解释K-mean聚类结果。

1. 表1-5是K-mean的迭代历史记录，非常明了。

迭代历史记录

聚类中心内的更改

迭代

1 2 3 4 5

1 2.796 1.414 1.813 .000 2.299

2 1.014 .000 .990 .000 .000

3 .000 .000 .000 .000 .000

a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心

的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的

最小距离为 5.209。

表1-5 迭代历史记录

2. 表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。

每个聚类中的案例数

聚类 1 3.000

2 19.000

3 3.000

4 1.000

5 4.000

有效 30.000

缺失 .000

表1-6 聚类样品数

3. 表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。

聚类成员

案例号地区名称聚类距离

1 北京市 1 1.489

2 天津市 2 .596

3 河北省 3 2.575

4 山西省 3 1.381

5 内蒙古自治区 2 1.951

6 辽宁省 5 2.299

7 吉林省 2 .646

8 黑龙江省 2 1.785

9 上海市 1 2.506

10 江苏省 5 1.569

11 浙江省 5 2.034

12 安徽省 2 .850

13 福建省 2 1.096

14 江西省 2 .960

15 山东省 5 2.489

16 河南省 3 1.980

17 湖北省 2 2.096

18 湖南省 2 1.211

19 广东省 4 .000

20 广西壮族自治区 2 .926

21 海南省 2 1.905

22 重庆市 2 1.436

23 四川省 1 2.954

24 贵州省 2 .984

25 云南省 2 1.080

26 陕西省 2 1.007

27 甘肃省 2 .955

28 青海省 2 1.744

29 宁夏回族自治区 2 1.414

30 新疆维吾尔自治区 2 2.503

表1-7 聚类成员

最后看到分类结果与ward法有所相似，但是组内距离较大。实际效果不如Ward法。而

且该方法需要事先设定分类的个数，并不适合没有先验知识的条件下的数据聚类。

2.总结

本次实习主要通过一批国内的能源消耗和产量数据，来实现回归分析和聚类分析。回归分析

得到一个拟合度良好多元线性回归方程：Y=0.008+1.061x

+0.087x

+0.157

-0.365x

-0.105 x

-0.017x

。该方程的残差分析也通过了。聚类分析通过比较三种不

同的系统聚类方法，同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的

四种聚类方法中，以ward法最为理想。Ward法所做的聚类得到组间距离最大，组内距离

最小。

本文标签：聚类距离样品数据分类

版权声明：本文标题：SPSS19实战之聚类分析内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1715229518a441898.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

2小时前

电子取证的基本概念科学的运用提取和证明方法，对从电子数据源提取的证据进行保护、收集、验证、鉴定、分析、解释、存档和出示，以有助于进一步的犯罪事件重构或帮助识别某些计划操作无关的非授权性活动。

电子爱好者 - 最新技术资讯及电子产品介绍！

SPSS19实战之聚类分析

更多相关文章

【转载】如何删除Windows远程桌面保存的账号密码数据

适用于Mac的 7 个顶级Android数据恢复软件 - 轻松找回丢失的数据！

【小白】新手向数据恢复教程，如何提取自己误删除或者丢失的数据

（果粉必备）iCloud备份和恢复数据使用技巧

win10自带远程桌面+局域网内数据共享

APP应用市场数据分析

从大数据应用案例中理解大数据的应用价值

linux系统崩溃 数据,恢复崩溃计算机数据的五款最佳Linux发行版

数据看板是什么，怎么做？

Azure Cognitive Services 样本数据文件项目教程

禁止手机浏览器上两个手指触碰在屏幕上，拉大距离，放大页面；缩小距离，缩小页面

计算机云共享盘,搭建私人云网盘：局域网访问共享数据

关于云服务与本机之间传输数据的连接方式 （本地磁盘映射）

重装系统前如何备份数据？让重装无后顾之忧

CADCASS土地报备坐标数据提取插件txt报盘数据导出工具支持环岛地块

一个无法识别数据的U盘数据恢复！！

如何恢复U盘误删数据？

【U盘数据安全】如何创建U盘回收站

u盘中raw数据如何恢复？数据恢复软件管用吗

一文读懂电子数据取证

发表评论

推荐文章

云电脑用虚拟键盘可以玩cf吗

centos7重装python_centos7.6删除重新安装python和yum

3D扫描逆向CAD简明教程

Linux常用的安全工具

智慧金融系统软件需求规格说明(3.20终版)

热门文章

kickstart配置文件详解和system-config-kickstart

个人电脑链接本地云服务器

谷歌浏览器安装失败，解决办法

共享打印机设置，可以一台打印接连接多台电脑（要求在同一个局域网下）

win10 安装c语言无法启动,如何解决win10应用程序无法正常启动0xc0000018的问题

解决tomcat正常启动但是对应的网页却无法访问

输入法 linux安装下载软件,百度输入法linux版下载

linux 怎么关闭输入法快捷键设置方法,关闭输入法快捷键

测绘——AutoCAD教育版打印戳去除

AI神器竟然能代替PS抠图了

最新文章

Word使用中遇到的一些错误与解决办法，附2016版本office的安装方法

linux安装WPS2019操作

个人永久性免费-Excel催化剂功能第27波-Excel工作表设置快捷操作

Office2019 for Mac下载地址

[创业之路-139] ：软件license原理与软件的知识产权保护

个人永久性免费-Excel催化剂功能第50波-批量打印、导出PDF、双面打印功能

个人永久性免费-Excel催化剂功能第30波-工作表快捷操作(批量创建、命名、排序、工作表目录)...

个人永久性免费-Excel催化剂功能第98波-零代码零距离轻松接触并拥有金融大数据...

永久解决word2016安装Mathtype后无法复制粘贴问题，且不影响Mathtype加载到Word（附mathtype7安装包）

office共享——多人编辑

个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇

福昕高级PDF编辑器Mac版PDF编辑器注册机激活下载版

办公软件我只用它：Microsoft Office

# 第三次重装系统心得-（中间有office部署）

Zebra BI for Excel

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

linux系统崩溃数据,恢复崩溃计算机数据的五款最佳Linux发行版

关于云服务与本机之间传输数据的连接方式（本地磁盘映射）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载