数据挖掘uci"/>
python分析数据挖掘uci
1
/
5
WEKA
对
wisconsin-breast-cancer
数据挖掘分析报告
一、
数据集
实验采用
UCI
数据集中的
Wisconsin
医学院的
William
H.Wolberg
博士提供的乳腺
癌
的
数
据
样
本
(
sconsin/
)
。
所有数据来自真实临床案例,
每个案例有
10
个属性。
其中前九个属性是检
测指标,
每个属性值用
1
到
10
的整数表示,
1
表示检测指标最正常,
10
表示最不正常。
第十个属性是分类属性,
指示该肿瘤是否为恶性。
数据集中的肿瘤性质是通过活检得出
的结果。
肿块厚度
Clump_Thickness integer [1,10]
细胞大小的均匀性
Cell_Size_Uniformity integer [1,10]
细胞形状的均匀性
Cell_Shape_Uniformity integer [1,10]
边缘粘性
Marginal_Adhesion integer [1,10]
单上皮细胞的大小
Single_Epi_Cell_Size integer [1,10]
裸核
Bare_Nuclei integer [1,10]
乏味染色体
Bland_Chromatin integer [1,10]
正常核
Normal_Nucleoli integer [1,10]
有丝分裂
Mitoses integer [1,10]
肿瘤性质
Class { benign, malignant}
该数据集共有
669
个实例。
本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉
weka
软
件的操作使用,
并尝试挖掘数据中的实际价值。
分类中,
尝试用前九个属性值来预测肿
瘤的性质(良性、恶性)
;聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特
征,
可用来辅助制定针对性治疗计划;
关联规则的探索,
寻找不同属性值之间的相关性。
二、
分类
1.
数据预处理
将
wisconsin-breast-cancer
数据集分割为两个,
分别作为
trainset
(
469
个)
和
testset
(
200
个)
。
2.
实验过程
用
j48
分类树对
trainset
进行分类运算,结果如下:
更多推荐
python分析数据挖掘uci
发布评论