2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南|电子爱好者

admin管理员组
文章数量:1565810

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧！
虽然之后主要方向是搞开发了但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学也让之后有缘找到的学弟学妹们（如果这个课还在的话）能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下在班里大概算是中等水平吧？
期末考试中的好多题目在笔记里都是有体现的（有复习需求的）大家可以下载下来根据自己的理解进行增删进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的只是一个概况
没有插图片（图片都在本地一个个粘过来太麻烦惹！）
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记

文章目录

题型
第一章数据挖掘与大数据简介
- 复习提纲
- 1.基本概念
- 2.数据挖掘主要任务
- 3.【重要！】KDD过程（知识发现过程）
- 最后一道题的一个思路
- 4.数据挖掘的挑战
第二章认识数据与数据预处理
- 复习提纲
- 1.属性类型
- 2.【重要！选填题】数据的统计描述
- - 中心趋势度量
  - 数据的散布
- 3.【重点上机实习】（数据的）相似性度量
- - 1.标称属性数据
  - 2.二元变量属性数据
  - 3.序数型变量数据
  - 4.数值属性数据
- 4.【重点！】数据预处理
- - 为什么要挖掘？
  - 数据预处理的主要任务：
  - 【重点】数据清理（数据的填充方法重点！）
  - 数据集成
  - 数据归约
  - 数据变换
  - 数据离散化
第三章关联规则挖掘
- 复习提纲
- 1.定义以及一些概念
- 2.Apriori算法
- 3.FP-growth算法
- - - 如何构造FP树？
- 4 支持度、置信度及兴趣因子
第四章分类/回归
- - 复习提纲
- 1.基本概念
- 监督学习 VS 无监督学习
- 【重要！】模型分类
- - 生成模型
  - 判别模型：
  - 二者的区别
- 2.决策树（DT）
- 【重要！】决策树的优缺点
- 【重要！】构建决策树的方法
- 【重要！】**属性选择基本准则：**
- - 【重要！】信息增益（ID3）：
  - 【重要！】信息增益率（C4.5）：
  - Gini指数（CART）
- 3.【重要！】过拟合问题和解决
- - 过拟合的解决策略
- 【重要！】在决策树中如何避免过拟合
- 4.【重要！】KNN
- 【重要！】KNN的优点和缺点
- - 基本思想
  - 优缺点
- 5.朴素贝叶斯
- 6.【重要！】SVM支持向量机
- 【重要！】SVM的优缺点
- - 什么是支持向量？
- 7.人工神经网络
- 8.集成学习
- 9.分类评价指标
10.练习题
第五章聚类分析和噪声检测
- 复习提纲
- 1.什么是聚类
- 2.聚类算法分类
- 3.【重要！】KMEANS
- 【*】KMEANS优缺点
- 3.【重要！】DBSCAN
- 缺点
- 4.什么是离群点
- 5.离群点种类
- 6.LOF 离群（异常/孤立）点检测
第六章大数据分析
- 复习提纲
- 1.哈希技术
- 【重点】Min哈希（最小哈希）
- 【重点！】会算签名矩阵！
- 【重要】LSH（局部敏感哈希）
- - 原因：
  - 哈希的思想：
- **2.** 数据流挖掘
- 【重点】如何检测概念漂移
- **3.** 【重点】Hadoop/spark的基本概念！

题型

选择题——单选、多选
大题——2道计算题大部分是简答题最后一题是综合题

决策树的流程

聚类有哪些类型

数据挖掘的任务有哪些~

关联规则挖掘

分类/预测与回归

聚类分析

孤立点检测

第一章数据挖掘与大数据简介

复习提纲

1.基本概念
- 什么是大数据
- 什么是数据挖掘
2.数据挖掘主要任务
3.KDD过程（数据挖掘是核心）
4.DM的挑战

1.基本概念

什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联（规则）分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类形成新的类别进行分析

【3】分类预测回归 找出描述和区分数据类或者概念的模型让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到！

3.【重要！】KDD过程（知识发现过程）

最后一道题的一个思路

KDD ：从数据中获取知识

【1】数据清理：消除噪声和删除不一致数据

【2】数据集成：多种数据源可以组合在一起

【3】数据选择：从数据库中提取与分析任务相关的数据

【4】数据变换：把数据变换和统一成适合挖掘的形式

【5】数据挖掘 ：核心步骤，使用智能方法提取数据模式

知识发现的核心！

【6】模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

【7】知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

注意数据挖掘是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章认识数据与数据预处理

复习提纲

1.属性类型
2.数据的统计描述
- 中心性
- - 均值
  - 众数
  - 中位数
  - 中列数
- 散度
- - 极差
  - 最大
  - 最小
  - 四分位
  - 百分位
  - 方差
3.相似性度量
- 标称 d(i, j) = #不同/#总
- 数值
- - 欧式
  - 曼哈顿
- 数据标准化/归化
- - 最大最小法
  - Z-Score
- 其他相似性
- - 余弦
  - 马
  - 相关子数
  - KL散度
4.数据预处理
清理 -> 集成 ->归约 -> 变换 -> 离散化
- 清理：缺值、噪声
- 集成：冗余分析、卡方检验
- 归约：采样 PCA/特征筛选（没太看懂
- 变换：最大最小法

1.属性类型

分类型
- 标称型
- 标称型目标变量的结果只在有限目标集中取值，比如真与假(标称型目标变量主要用于分类)
- - 例: ID 号、眼球颜色、邮政编码
- - 特殊：二元
- 序数型
- - 例: 军阶、 GPA、用 {tall, medium, short}表示的高
数值型
数值型目标变量则可以从无限的数值集合中取值，如0.555，666.666等 (数值型目标变量主要用于回归分析)
- 区间
- - 例: 日历、摄氏或华氏温度.
- 比率
- - 例: 开氏温度、长度、计数
**标称属性**的值是一些符号和事物的名称（比如头发的颜色）

标称：意味着“与名称相关”

二元属性 是标称的一种 1代表有 0代表没有

如果是对称的说明无权重（例如男女性别）

如果是非对称的说明有权重（例如检测结果为阴性/阳性）

数值属性：区间、比率

2.【重要！选填题】数据的统计描述

中心趋势度量：均值（中列数）、众数、中位数、 —— （中心性描述）

数据的散布：**极差、四分位数、四分位数极差、五数概括、盒图 **—— （散布描述）

中心趋势度量

均值(mean)

均值 = 总和/个数

加权平均：考虑权重的均值

- 中列数：

数据集的最大和最小值的平均值

中位数(median)

有序数据值的中间值。

大数据：近似值估计（线性插值方法）

众数：（mode）

在集合中出现最频繁的值。（一个数据集中可能有多个众数）

对于非对称的单峰数据,有以下经验关系：

mean-mode ~ 3 * (mean-median)即为 均值 - 众数近似等于 3*(均值 - 中间数)

选填可能会考！

数据的散布

方差
标准差
极差

max-min

四分位数(quantile)
四分位数极差（距离）

IQR=Q3-Q1

本文标签：大数期末据分析数据挖掘高分

版权声明：本文标题：2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1727187292a1101075.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

石油和天然气行业的大数据分析：新兴趋势Big Data analytics in oil and gas industry: An emerging trend

20天前

文章目录 A B S T R A C T1. Introduction2. Big Data analytics2.1. Big Data definition2.2 Big Data methodology2.2.1. Apache Ha

Android Studio实现简易音乐播放器(期末作业)

20天前

项目演示(视频中会出现黑屏是手机录像输入密码时防止密码泄露而导致的，并不是程序问题) video02 登录注册代码和页面在上一篇文章，地址为：http:t.csdnimg

HTML5期末大作业：三亚设计 6页旅游网页设计与实现——旅游风景区网站HTML+CSS

20天前

解决2K、4K等高分屏下Photoshop窗口、字体太小等问题

20天前

问题现象：在使用Photoshop过程中发现在4K2K的笔记本或者高端显示器上会出现Photoshop菜单栏、窗口、字体太小看不清楚等问题，简直是日常软件设计者使用的噩梦，

计算机网络期末版（已完结）

18天前

目录第一章计算机网络概述 1.计算机网络的概念计算机网络的定义： 计算机网络的组成： 计算机网络的类型： 2.计算机网络的性能（本节学习

计算机408+数据库【适合考研复试或期末复习】

18天前

写在前面，这是自己准备考研复试，看的一些视频，总结下来的知识点。当然如果这篇文章能够帮助到你，可以点赞收藏，如果写的不妥的地方&a

web编程树莓派期末项目（一）——树莓派的安装配置

17天前

web编程树莓派期末项目（一）项目要求树莓派安装配置服务器端的建立系统烧录网络配置应用配置NodejsMysql内网映射项目要求树莓派安装配置项目使用树莓派的配置，硬件安装参考老师所给ppt安装后服务器端的建立系统烧

web前端html期末大作业实例 (1500套)

15天前

文章目录 📚web前端期末大作业 (1500套) 集合一、网页介绍二、网页集合 💌表白网页 125套 (集合)💙Echarts大屏数据展示 150套 (集合)一、基于H

DIY高分屏广色域显示器

14天前

最近空闲时在网上逛论坛发现有高人DIY显示器，细看之下发现挺有意思。自己的显示器有dell和hp两款，dell的是u2311h DELL u2311h 分辨率1920*1080,是自己刚毕业开始

HTML+CSS+JS网页设计期末课程大作业 DW个人博客网站制作 web前端开发技术 web课程设计网页规划与设计

13天前

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为

python数据挖掘案例系列教程——python实现搜索引擎

11天前

全栈工程师开发手册 （作者：栾鹏） python数据挖掘系列教程今天我们使用python实现一个网站搜索引擎。主要包含两个部分。网站数据库的生成、搜索引擎。其中搜索引擎部分

高分影视盒子app下载一起学技巧_大家学APP课程你学习了吗？

10天前

One--大家学APP是什么？ 大家学APP，中小学在线教育知名品牌，专注于为6-18岁的青少年提供高品质的。2006年-2015年，大家学前身专

数据挖掘报告

10天前

研究方向前沿读书报告数据挖掘技术的算法与应用目录第一章数据仓库... 5 1.1 概论... 5 1.2 数据仓库体系结构... 6 1.3 数据仓库规划、设计与开发... 7 1.3.1 确定范围... 7 1.3.

基于Android Studio实现拍照识花+ChatGPT的期末作业

9天前

目录作业要求设计思路代码结构结果展示总结代码获取作业要求不少于3个Activity；使用Listview或RecyclerView；使用Sqlite数据库&a

软件需求分析期末复习题【包含答案】（完结版）

4天前

文章目录一、核心基础知识1、绪论2、确定项目前景与范围3、涉众分析与硬数据采集4、基于用例场景展开用户需求获取5、过程建模（DFD）6、数据建模（ERD&#xff

软件体系结构期末复习(快速入门考试)

4天前

软件体系结构汇总总结篇幅较长耐心食用~~ 第一章基本概念 1.发展史 2.软件架构三要素(组成派)：组件连接体约束 3.软件架构是一系列重要决策的集合(决策派) 3.软件架构是科学和艺术(其他观点)等

软件工程期末复习二

4天前

以下是我的一位同学整理的，标注是我做的，希望好好学习，顺利通过考试，软件工程最重要的是画图题。 1．什么是软件危机&#xf

软件工程期末复习题

4天前

软件工程概述例题分析【例1】软件是计算机系统中与硬件相互依存的另一部分，它是包括( A )、( B )及( C )的完整集合。其中，( A )是按事先设计的功能和性能要求执行的指令序列。(

数据挖掘——航空公司客户价值分析（代码完整）

2天前

最近在阅读张良均、王路等人出版的书《python数据分析与挖掘实战》，其中有个案例是介绍航空公司客户价值的分析，其中用到的聚类方法是K-Means方法，我一直把学习的重心放在

软件工程期末复习题库

4小时前

一、单选题 （188题 ） 1.（0.0分）集成测试的主要方法有两个，一个是（ ）

电子爱好者 - 最新技术资讯及电子产品介绍！

2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

文章目录

题型

第一章 数据挖掘与大数据简介

复习提纲

1.基本概念

2.数据挖掘主要任务

3.【重要！】KDD过程（知识发现过程）

最后一道题 的 一个思路

4.数据挖掘的挑战

第二章 认识数据与数据预处理

复习提纲

1.属性类型

2.【重要！选填题】数据的统计描述

中心趋势度量

数据的散布

更多相关文章

石油和天然气行业的大数据分析：新兴趋势Big Data analytics in oil and gas industry: An emerging trend

Android Studio实现简易音乐播放器(期末作业)

HTML5期末大作业：三亚设计 6页 旅游网页设计与实现——旅游风景区网站HTML+CSS

解决2K、4K等高分屏下Photoshop窗口、字体太小等问题

计算机网络期末版（已完结）

计算机408+数据库【适合考研复试或期末复习】

web编程树莓派期末项目（一）——树莓派的安装配置

web前端html期末大作业实例 (1500套)

DIY高分屏广色域显示器

HTML+CSS+JS网页设计期末课程大作业 DW个人博客网站制作 web前端开发技术 web课程设计 网页规划与设计

python数据挖掘案例系列教程——python实现搜索引擎

高分影视盒子app下载一起学技巧_大家学APP课程你学习了吗？

数据挖掘报告

基于Android Studio实现拍照识花+ChatGPT的期末作业

软件需求分析期末复习题【包含答案】（完结版）

软件体系结构期末复习(快速入门考试)

软件工程期末复习二

软件工程期末复习题

数据挖掘——航空公司客户价值分析（代码完整）

软件工程期末复习题库

发表评论

推荐文章

win10开的热点能连接但不能上网

软件定义汽车，进入深水区

微软发布Cognitive Toolkit 2.0 beta深度学习工具包！

基于51单片机智能门禁无线按键wifi密码锁电子锁设计19-232

Transformer应用到建筑行业，CAD设计起飞了

热门文章

ubuntu18.04如何外接显示器——解决显示器黑屏问题

Delphi 安卓浏览器自定义UserAgent

css - 手机浏览器像素按照电脑浏览器像素规则显示

使用讯飞语音转写API进行音频转文字

Win10使用pip安装PyTorch的方法简述

MySql8.0卸载重装

centos7 安装谷歌浏览器，超简单！

Linux之文件系统与软硬链接

cad老是弹出命令中发生异常_打开CAD是时出现错误报告怎么解决？

A002-185-1203

最新文章

Docker安装Harbor

黑科技——通过docker+xware在群辉DSM 6.0系统实现迅雷远程下载

VS2019 C#开发手机App环境配置和开发

这些免费看电视的直播软件，还能免费追剧的app，需要的收藏！

一份完整的app产品运营推广方案，app推广运营的方法（二

Arduino IDE傻瓜式离线安装ESP8266ESP32stm32固件支持包

完整恢复玩客云官方固件，恢复迅雷下载和备份

Google Chrome 下载链接，直接复制到QQ旋风或迅雷即可下载

iOS迅雷7月19日更新，终于可以稳定下载了！

Mac苹果电脑Matlab2018a和2020a下载及安装（linux和win也有，但是没试）

迅雷精简版依托迅雷强大的P2P资源网络和独特的下载技术

app应用内升级方案选型与优化

OpenWrt路由器通过Aria2开启迅雷离线下载[图文教程]

pytorch手动安装开发包

Docker下载与安装(win7，8，10，mac)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

第一章数据挖掘与大数据简介

最后一道题的一个思路

第二章认识数据与数据预处理

HTML5期末大作业：三亚设计 6页旅游网页设计与实现——旅游风景区网站HTML+CSS

HTML+CSS+JS网页设计期末课程大作业 DW个人博客网站制作 web前端开发技术 web课程设计网页规划与设计

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载