数据挖掘复习

编程入门 行业动态 更新时间:2024-10-25 08:26:36

<a href=https://www.elefans.com/category/jswz/34/1769747.html style=数据挖掘复习"/>

数据挖掘复习

第一章 介绍

1、什么是数据挖掘

数据挖掘是在大量不完全的,有噪声的,模糊的,随机的实际数据中,提取出隐含其中的,人们事先不知道的,但又潜在有用的信息和知识的过程。

2、如何对数据挖掘进行分类

1.对数据进行分类

2.根据挖掘知识类型分类

3.根据挖掘所用技术进行分类

4.根据挖掘的应用分类

3、数据挖掘的应用

市场分析、风险分析、流数据挖掘、DNA数据分析、文本挖掘与网络挖掘、欺诈检测与异常模式检测

第二章 了解数据

1、数据属性类型有几种?陈述含义。

标称型Nominal:分类、状态、属性名称

二元型Binary:bool类型

序数型Ordinal:值为有意义的序列,但无法做差值

定量型Quantity:量化(整数或实数)

区间标度型Interval:没有真正零点的,利用等大值测量的,有序的值

比率标度型Ratio:有固有的零点

2、如何度量数据中心趋势

平均值Mean

中值Median

众数Mode

中列数Midrange:最大值与最小值的平均

3、如何度量数据离散度

方差与标准差

4、何谓数据分布的五数概括

就是几个四分位数

最小值、Q1、中值、Q3、最大值

5、双模、多模就是指众数有几种,画出四分位图

第三章 数据预处理

1、箱均值平滑法,如何找出离群点,描述其他数据平滑方法

排序数据:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

箱均值平滑法(箱深为3),分成九箱,计算每个箱子的算数平均值,将每个箱子的值变为这个值。

离群点:设置阈值与平滑后的最大值、最小值比较。

其他平滑方法:按箱中值平滑、按箱边界值平滑、按箱中列数平滑

边界值平滑中间的值与谁靠近就赋值谁。

2、规范化下列数据:200,300,400,600,1000

1.max-min法:

设置最小值是0,最大值为1,求每个值的映射值即可 (v-min)/(max-min)
 

2.z-score法:

求均值为500,标准差为,利用公式(v-x)/σ

第四章 数据仓库

1、什么是数据仓库

数据仓库是面向主题的、集成的、时变的和非易失的数据集合,支持管理与决策过程。

第五章 DMQL

 1、列出数据挖掘的五原语

任务相关数据(Task-relevant data)

要挖掘的知识类型(Type of knowledge to be mined)

背景知识(Background knowledge)

模式兴趣度度量(Pattern interestingness measurements)

发现模式的可视化(Visualization of discovered patterns)

 

 

 

 第六章 关联数据挖掘

 

 Apriori计算sup为3(5*60%)即可。计算频繁项集,优化。

FP树算法:对每个TID中的项去除不频繁项,对频繁项进行排序。绘制FP树,FP树就是将每个结点过一遍计数即可,类似字典树。

 绘制表格,频繁树的计算原则是溯源找到对应符号出现的次数,然后保留下满足约束的项目。

 

 第二问只有可能是三项集,由此利用conf推出。

第七章 聚类Clustering

1、什么是好的聚类

具有高类内(intra-class)相似性与低类间(inter-class)相似性。

2、列出主要聚类方法

划分方法(Partitioning approach)

层次方法(Hierarchical approach)

基于密度方法(Density-based approach)

基于网格方法(Grid-based approach)

基于模型方法(Model-based)

基于频繁模式方法(Frequent pattern-based)

用户指导或基于约束方法(User-guided orconstraint-based)

基于链接方法(Link-based clustering)

更多推荐

数据挖掘复习

本文发布于:2023-06-18 12:59:34,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/771256.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数据挖掘

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!