admin管理员组文章数量:1567922
2024年6月26日发(作者:)
1)请阐述什么是数据清洗?
数据清洗(Data cleansing/Data cleaning/Data scrubbing)可以有多种表述方式,其定
义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。例如,在数据
仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,要考虑数据仓库的集成性与面
向主题的需要(包括数据的清洗及结构转换)。不过,现在业界一般认为,数据清洗的含义是
检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背
景下的白噪声。
2)数据清洗有哪些应用领域?
目前,数据清洗主要应用于三个领域:数据仓库、数据挖掘和数据质量管理。
3)数据清洗的原理是什么?
数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据
转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为手工清洗和自动清
洗。
4)什么是数据标准化?
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落
入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数
量级等特征属性的差异,将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的
数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
5)数据清洗的工具有哪些?
OpenRefine又叫做GoogleRefine,是一个新的具有数据画像、清洗、转换等等功能的工
具,它可以观察和操纵数据。DataCleaner是一个简单,易于使用的数据质量的应用工具,
旨在分析,比较,验证和监控数据。它能够将凌乱的半结构化数据集转换为所有可视化软件,
并可以读取的干净可读的数据集。此外,DataCleaner还提供数据仓库和数据管理服务。Kettle
是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽
取高效稳定。Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具。此外,在进行
数据清洗时,还可以使用Excel进行最简单的数据清洗工作。也可以使用编程工具Python
来实现数据清洗
6)请简述如何安装常见的数据清洗软件。
要安装 Kettle必须首先从网上下载,此外,由于 Kettle是基于java开发的,所以需要java
环境。jdk网址:/technetwork/java/javase/downloads/ 。
1)下载,首先从官网上下载jdk。
2)配置path变量,下载完之后进行安装,安装完毕后要进行环境配置。在我的电脑、
高级、环境变量中找到path变量,并把java的bin路径添加进去用分号隔开,注意要找到
自己安装的对应路径。例如D:Program FilesJavajdk1.8.0_181bin。
3)配置classpath变量,在环境变量中新建一个classpath变量,里面的内容要填java
文件夹中lib文件夹下 和的路径。例如D:Program
FilesJavajdk1.8.0_,D:Program FilesJavajdk1.8.0_。
4)在配置完后运行cmd命令,输入命令java
习题2
1)请阐述什么是数据质量。
数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质
量的数据则必然拉低数据应用的下限。数据质量一般指数据能够真实、完整反映经营管理实
际情况的程度
2)请阐述如何提高数据质量。
(1)定义一套标准化的数据规范
(2)加大对数据质量的管理
(3)加大对开源工具的应用
3)请阐述什么是数据预处理。
数据预处理是对于数据的预先处理,数据预处理的作用就是为了提高数据挖掘的质量。
数据预处理有多种方法:数据清洗,数据集成,数据变换,数据归约等。这些数据处理技术
在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
4)数据清洗有哪些常用方法?
数据缺失值的处理,噪声数据的处理,冗余数据的处理
5)什么是正态分布?
正态分布也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种。它是一个在
数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态分布的曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之
为钟形曲线
6)如何识别离群点?
(1)分箱法
(2)回归法
(3)聚类分析
(4)估算分析法
(5)3∂原则
版权声明:本文标题:数据清洗习题答案完整版 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1719402215a776461.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论