数据挖掘week1"/>
数据挖掘week1
Week 1 走进数据科学
DRIP的全称是Data Rich Information Poor,中文全称为数据丰富的信息差,指的是现实生活中普遍存在的“数据充沛而信息不足”的问题,原因在于对原始数据没有进行必要的处理和分析,没有发挥出其应有的价值。
数据挖掘是一门跨学科(interdisciplinary)的领域知识,英文又称Data Mining,它涉及了很多的领域,如机器学习,模式识别,人工智能等等。具体如下图所示。
数据挖掘在社会生活中也有着十分广泛的应用,体现在各行各业,如下图所示。
数据是一种最底层的表现形式,它表达一些物体的属性。切记数据的概念与信息是不同的,信息从某种意义上来说是高于数据,数据在进行一系列的处理后才可以称之为信息。
大数据的三个特点:1.高体积 2.高速度 3.高种类
1.什么是数据挖掘?
数据挖掘可以理解为一个自动提取的过程,简单的可以概括为从大规模,不完全,有噪声的数据中提取出有趣(interesting),有用(useful)和隐藏(hidden)的模式(pattern)。
如下图所示,为数据挖掘中的一些流程。
2.分类问题
可以简单的理解为给出一些训练集,训练出一个简单的模型。使得以后给出一个未知的训练对象就可以根据给出的对象进行一些问题的预测。
(1)分类中有两种常见的现象分别是:欠拟合与过拟合。欠拟合是指决策边界不能很好的分离样本。而过拟合则恰恰相反,它强调将样本中的每一个点都分类正确,从而导致决策边界增减幅度太大,不具有连续性,所以也是一种不好的分类现象。
(2)混淆矩阵(Confusion Matrix)
(3)ROC曲线
注意AUC取值越接近1越好。
(4)代价敏感性问题
由于关于一个问题分类错误的代价不同,所以给予的占比权重也会有所不同。
3.聚类问题
常用的距离指标:
1)Euclidean Distance
2)Manhattan Distance
3)Mahalanobis Distance
常见的聚类算法:
1)K—Means
2)Sequential Leader
3)Affinity Propagation
4.隐私保护与并行计算
采用随机问题的方式来保护隐私。
更多推荐
数据挖掘week1
发布评论