《数据仓库》阅读笔记（一）

编程入门行业动态更新时间:2024-10-09 01:14:09

《<a href=https://www.elefans.com/category/jswz/34/1768644.html style= 数据仓库》阅读笔记（一）"/>

《数据仓库》阅读笔记（一）

第1章决策支持系统的发展（一）

1.1 演化

主要介绍数据仓库和决策支持系统（Decision Support System，DSS）处理的起源和演化过程。
略~

1.2 自然演化式体系将诶购物的问题

自然演化式体系及诶狗带来了许多新的挑战，如：

数据可信性
生产率问题
无法将数据转化为信息

1.2.1 数据缺乏可信性

数据缺乏可信性这种危机广泛存在，也是可以预见的。主要有如下五个原因：

数据无时间基准
对于在不同时刻抽取出来的任何数据集，如果它们的分析结果是相同的，那只能是偶然
数据算法上的差异
比如，一个部门选择了所有的旧账号做分析。而另一个部门选择所有的大账号做分析。在有旧账号的顾客和有大账号的顾客之间并不存在必然的相关性，那么分析结果大相径庭就没什么可大惊小怪的了。
抽取的多层次问题
每一次抽取进一步恶化了前两个因素造成的后果。每次新的抽取结束后，因为时间或算法上的差异，抽取结果出现差异的可能性增大。
外部数据问题
分析人员把不同的外部数据加入分析流时，却丢掉了外部数据的身份标识。由于数据的来源没有记录，原始数据也就成了数据源不定的一般数据。
无公共起始数据源
部门A的分析工作源于文件XYZ，部门B的分析工作源于数据库ABC。无论文件XYZ和数据库ABC之间关系怎样，他们之间都不存在数据同步或数据共享。

1.2.2 生产率问题

生产率糟糕来自于三个原因：

定位数据
要进行数据定位，必须分析很多文件和数据的布局。有些文件使用虚拟存储器存取方法，有些文件使用信息管理系统，有些使用高级数据库管理系统，有些使用集成数据库管理系统。访问整个企业的数据需要不同的技能组合。还需要处理不同数据源的冲突。
编辑数据
为从众多的数据源中取得数据而编写的程序可能相当简单。但是一下这些事实是的这种工作变得复杂了：
- 要写的程序很多
- 每个程序都需要定制
- 程序涵盖了公司采用的所有技术
召集程序员/分析员去完成以上工作
需要召集一定数量的具有响应技能的程序员/分析员去完成以上工作，并且不是一次性的。

1.2.3 从数据到信息

无法将数据转化为信息是自然演化式体系结构的另一个主要缺陷。该缺陷主要表现在：

缺少集成性
没有存储足够的可以满足DSS分析员的需求的历史数据

1.2.4 方法的变迁

自然演化式体系结构的存在方式确实不足以满足将来的需要。这就需要进行一种更大的变化——体系结构的转变。于是，我们迎来了体系化的数据仓库环境。
在体系结构化环境的核心，主要存在两种数据：原始数据和导出数据。它们的主要区别如下：

原始数据/操作型数据	导出数据/DSS型数据
面向应用	面向主题
详细的	概要的，或精化的
在访问瞬间是准确的	代表过去的数据，快照
为日常工作服务	为管理者服务
可更新	不更新
重复运行	启发式运行
处理需求预先可知	处理需求事先不知道
声明周期符合SDLC（系统开发声明周期）	完全不同的声明周期
对性能要求高	对性能要求宽松
一次访问一个单元	一次访问一个集合
事务处理驱动	分析处理驱动
主要关心更新控制	无更新控制问题
高可用性	宽松的可用性
整体管理	子集管理
非冗余性	总是存在冗余
静态结构	结构灵活
一次处理数据量小	一次处理数据量大
支持日常操作	支持管理需求
访问频繁	访问不多

1.2.5 体系结构化环境

在体系结构化环境中有四个层次的数据——操作层、原子或数据仓库层、部门层（或数据集市层）、个体层。

1.2.6 体系结构化环境中的数据集成

把数据从操作型环境载入到数据仓库时，如果不进行集成就没有意义。如果数据以一种非集成的状态到达数据仓库，它就无法用于支持数据的企业视图。数据的企业视图是体系结构化环境的本质之一。
抽取/转换/状态（ETL）软件可以使这个过程的大部分自动化、此外，这个集成过程只需要进行一次。

1.2.7 用户是谁

数据仓库的用户也成为DSS分析员，他首先是个商务人员，其次才是技术人员。DSS分析员的主要工作是定义和发现在企业决策中使用的信息。

1.3 开发生命周期

在操作型环境中使用的是传统的系统开发生命周期SDLC。SDLC常被称为瀑布式开发方法，因为其中的每一项活动都是确定的，并且只有与一个活动结束后，下一个活动才会被触发。
数据仓库开发则已一种完全不同的开发生命周期进行，又是这种周期成为CLDS（与SDLC顺序相反）。传统的SDLC由需求驱动，而CLDS几乎刚好相反：由数据开始，得到数据后，将数据集成。然后，检验数据存在什么偏差。之后，针对数据写程序，分析程序的执行结果，最后系统需求才得到理解。一旦系统需求得到理解，就需要对系统的设计进行调整，然后针对不同的数据集开始新的开发周期。因为开发生命周期不断的重新安排不同类型的数据，所以，CLDS常称作螺旋式开发方法。
CLDS是传统的数据驱动开发生命周，而SDLC是传统的需求驱动开发生命周期。

1.4 硬件利用模式

在操作型处理中有多个波峰和波谷，但总的来说，存在相对静态的且可预测稳定的硬件利用模式。
在数据仓库环境中，存在一个根本不同的硬件利用模式，即利用的二元模式。要么全部利用硬件，要么根本不用硬件。估算数据仓库环境中的硬件平均利用率是没有意义的。

1.5 为重建工程创造条件

从生产环境转变到体系结构化的数据仓库环境过程有两个非常有用的副作用：

从生产环境中移走大量数据——大部分是档案数据。这在许多方面具有好的效果，包括以下几条：
- 生产环境更易于纠错
- 生产环境更易于重构
- 生产环境更易于监控
- 生产环境更易于索引
从生产环境移走信息型处理，减轻生产环境中的维护负担。

1.6 监控数据仓库环境

通常，数据仓库环境中有两种受监控的操作成分：

存储与数据仓库中的数据
监控数据仓库环境中的数据对有效管理数据仓库环境是最基本的。通过监控数据仓库环境中的数据能够取得一些重要信息，包括：
- 确定发生了什么增长，增长发生在什么地方，增长以什么速率发生
- 确定哪些数据正在被使用
- 估算最终用户得到的响应时间
- 确定谁在使用数据仓库
- 说明最终用户正在使用数据仓库中的多少数据
- 精确指出数据仓库何时被使用
数据的使用情况
只要数据体系结构设计者没有办法监控数据仓库中数据的使用情况，那么除了不断购买新的计算机资源之外就别无选择了。反之，他就可以知道哪些数据没有被使用。如果可能的话，就可以明智的将不用的数据转移到那些相对廉价的介质上去。

第2章数据仓库环境

本章主要介绍数据仓库的一些非常重要的特性。
数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集。

2.1 数据仓库的结构

数据仓库中数据存在着不同的细节级：早期细节级（通常是存储在备用海量存储器上）、当前细节级。轻度综合数据集（数据集市）以及高度综合数据集。数据由操作型环境导入数据仓库。相当数量的数据转换发生在由操作层向数据仓库层传输的过程中。

一旦数据过期，就由当前细节级进入早期细节级。综合后的数据由当前细节级进入轻度综合数据级，然后再进入高度综合数据级。