admin管理员组文章数量:1565810
狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧!
虽然之后主要方向是搞开发了 但是万一以后想去搞大数据捏~这是我总结的这门课程的部分章节内容
为了总结下这门课程所学 也让之后有缘找到的学弟学妹们(如果这个课还在的话)能更好地复习吧~
分享一下复习笔记
2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下 在班里大概算是中等水平吧?
期末考试中的好多题目在笔记里都是有体现的 (有复习需求的)大家可以下载下来 根据自己的理解进行增删 进行学习理解
没有复习需求的也可以看着玩玩hhh
下面的 只是一个概况
没有插图片(图片都在本地 一个个粘过来太麻烦惹!)
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记
文章目录
- 题型
- 第一章 数据挖掘与大数据简介
-
- 复习提纲
- 1.基本概念
- 2.数据挖掘主要任务
- 3.【重要!】KDD过程(知识发现过程)
- 最后一道题 的 一个思路
- 4.数据挖掘的挑战
- 第二章 认识数据与数据预处理
-
- 复习提纲
- 1.属性类型
- 2.【重要!选填题】数据的统计描述
-
- 中心趋势度量
- 数据的散布
- 3.【重点 上机实习】(数据的)相似性度量
-
- 1.标称属性数据
- 2.二元变量属性数据
- 3.序数型变量数据
- 4.数值属性数据
- 4.【重点!】数据预处理
-
- 为什么要挖掘?
- 数据预处理的主要任务:
- 【重点】数据清理(数据的填充方法重点!)
- 数据集成
- 数据归约
- 数据变换
- 数据离散化
- 第三章 关联规则挖掘
-
- 复习提纲
- 1.定义以及一些概念
- 2.Apriori算法
- 3.FP-growth算法
-
-
- 如何构造FP树?
-
- 4 支持度、置信度及兴趣因子
- 第四章 分类/回归
-
-
- 复习提纲
- 1.基本概念
- 监督学习 VS 无监督学习
- 【重要!】模型分类
-
- 生成模型
- 判别模型:
- 二者的区别
- 2.决策树(DT)
- 【重要!】决策树的优缺点
- 【重要!】构建决策树的方法
- 【重要!】**属性选择基本准则:**
-
- 【重要!】信息增益(ID3):
- 【重要!】信息增益率(C4.5):
- Gini指数(CART)
- 3.【重要!】过拟合问题和解决
-
- 过拟合的解决策略
- 【重要!】在决策树中如何避免过拟合
- 4.【重要!】KNN
- 【重要!】KNN的优点和缺点
-
- 基本思想
- 优缺点
- 5.朴素贝叶斯
- 6.【重要!】SVM支持向量机
- 【重要!】SVM的优缺点
-
- 什么是支持向量?
- 7.人工神经网络
- 8.集成学习
- 9.分类评价指标
-
- 10.练习题
- 第五章 聚类分析和噪声检测
-
- 复习提纲
- 1.什么是聚类
- 2.聚类算法分类
- 3.【重要!】KMEANS
- 【*】KMEANS优缺点
- 3.【重要!】DBSCAN
- 缺点
- 4.什么是离群点
- 5.离群点种类
- 6.LOF 离群(异常/孤立)点检测
- 第六章 大数据分析
-
- 复习提纲
- 1.哈希技术
- 【重点】Min哈希(最小哈希)
- 【重点!】会算签名矩阵!
- 【重要】LSH(局部敏感哈希)
-
- 原因:
- 哈希的思想:
- **2.** 数据流挖掘
- 【重点】如何检测概念漂移
- **3.** 【重点】Hadoop/spark的基本概念!
题型
- 选择题——单选、多选
- 大题——2道计算题 大部分是简答题 最后一题是综合题
- 决策树的流程
- 聚类有哪些类型
- 数据挖掘的任务有哪些~
- 关联规则挖掘
- 分类/预测 与 回归
- 聚类分析
- 孤立点检测
第一章 数据挖掘与大数据简介
复习提纲
- 1.基本概念
-
- 什么是大数据
- 什么是数据挖掘
- 2.数据挖掘主要任务
- 3.KDD过程(数据挖掘是核心)
- 4.DM的挑战
1.基本概念
- 什么是大数据
无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合
是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力 来适应海量、高增长率和多样化的信息资产
- 什么是数据挖掘
从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的 模式或知识。
关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”
2.数据挖掘主要任务
【1】关联(规则)分析 如挖掘空气质量和气象条件之间的关系
【2】聚类分析 将数据归为不同的类 形成新的类别进行分析
【3】分类 预测 回归 找出描述和区分数据类或者概念的模型 让该模型可以预测未知的对象类标签
【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据 在欺骗检测中通过孤立点分析得到的结论
这些内容之后章节都会讲到!
3.【重要!】KDD过程(知识发现过程)
最后一道题 的 一个思路
KDD : 从数据中获取知识
【1】数据清理:消除噪声和删除不一致数据
【2】数据集成:多种数据源可以组合在一起
【3】数据选择:从数据库中提取与分析任务相关的数据
【4】数据变换:把数据变换和统一成适合挖掘的形式
【5】数据挖掘 :核心步骤,使用智能方法提取数据模式
知识发现的核心!
【6】模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式
【7】知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
注意 数据挖掘 是核心
4.数据挖掘的挑战
数据容量 Scale of Data
— VOLUMN
数据实时性 Data Stream
— VELOCITY
数据多样性 Different format of data different sources
— VARIETY
数据不确定性 Uncertainty, missing value
第二章 认识数据与数据预处理
复习提纲
- 1.属性类型
- 2.数据的统计描述
-
- 中心性
-
- 均值
- 众数
- 中位数
- 中列数
- 散度
-
- 极差
- 最大
- 最小
- 四分位
- 百分位
- 方差
- 3.相似性度量
-
- 标称
d(i, j) = #不同/#总
- 数值
-
- 欧式
- 曼哈顿
- 数据标准化/归化
-
- 最大最小法
- Z-Score
- 其他相似性
-
- 余弦
- 马
- 相关子数
- KL散度
- 标称
- 4.数据预处理
- 清理 -> 集成 ->归约 -> 变换 -> 离散化
-
- 清理:缺值、噪声
- 集成:冗余分析、卡方检验
- 归约:采样 PCA/特征筛选(没太看懂
- 变换:最大最小法
1.属性类型
- 分类型
-
- 标称型
- 标称型目标变量的结果只在有限目标集中取值,比如真与假(标称型目标变量主要用于分类)
-
- 例: ID 号、眼球颜色、邮政编码
-
- 特殊:二元
- 序数型
-
- 例: 军阶 、 GPA、用 {tall, medium, short}表示的高
- 数值型
- 数值型目标变量则可以从无限的数值集合中取值,如0.555,666.666等 (数值型目标变量主要用于回归分析)
-
- 区间
-
- 例: 日历、摄氏或华氏温度.
- 比率
-
- 例: 开氏温度、长度、计数
- **标称属性**的值是一些符号和事物的名称(比如头发的颜色)
标称:意味着“与名称相关”
-
二元属性 是标称的一种 1代表有 0代表没有
如果是对称的说明无权重(例如男女性别)
如果是非对称的说明有权重(例如检测结果为阴性/阳性)
数值属性:区间、比率
2.【重要!选填题】数据的统计描述
中心趋势度量:均值(中列数)、众数、中位数、 —— (中心性描述)
数据的散布:**极差、四分位数、四分位数极差、五数概括、盒图 **—— (散布描述)
中心趋势度量
- 均值(mean)
均值 = 总和/个数
加权平均:考虑权重的均值
-
- 中列数:
数据集的最大和最小值的平均值
- 中位数(median)
有序数据值的中间值。
大数据 :近似值估计(线性插值方法)
- 众数:(mode)
在集合中出现最频繁的值。(一个数据集中可能有多个众数)
对于非对称的单峰数据,有以下经验关系:
mean-mode ~ 3 * (mean-median)
即为 均值 - 众数 近似等于 3*(均值 - 中间数)
选填可能会考!
数据的散布
- 方差
- 标准差
- 极差
max-min
- 四分位数(quantile)
- 四分位数极差(距离)
IQR=Q3-Q1
版权声明:本文标题:2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1727187292a1101075.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论