数据挖掘基本流程 CRISP"/>
数据挖掘基本流程 CRISP
CRISP-DM数据挖掘基本流程
- 数据挖掘的基本流程图
- CRISP-DM
- CRISP-DM的实现方法
- 商业理解
- 数据理解
- 数据准备
- 建立模型
- 模型评估
- 结果部署
- 文件夹的内部框架
数据挖掘的基本流程图
在实际的数据挖掘过程中,基本会经历一下的这些流程(主要参考CRISP-DM的流程,下文有详述。)。其中包含两个小循环和一个大循环。
- 第一个小循环是商业理解和数据理解之间的指标的反复构建和优化。
- 第二个小循环是数据准备和建立模型,主要涉及到对数据的各种变换:清洗、特征筛选、特征生成、数据集成等。
- 一个大循环是指,在结果部署之前,通过模型的评估,可能会回溯到商业理解的地方,对分析过程重新来过。
CRISP-DM
CRoss Industry Standard Process for Data Ming. 跨行业的基本数据挖掘流程。
下图是对数据挖掘各个阶段内应包含的内容做以简述。
CRISP-DM的实现方法
商业理解
主要目的是了解业务背景、目标和痛点、制定合理的行动方案和可预期的成果。
STAR法则:状况、任务、行动、结果
OKR准则:通过定义目标O,设置关键成果KR.
SMART准则:对任务制定时,可以遵循该准则,具体(specific)、可衡量(Measurable)、可达成(Attainable)、相关(Relevant)、截止时间(Time-bound).
数据理解
主要内容是字段解释、分布解释、质量解释。
- 数据读取
- 数据审查
- 字段解释【分类、连续】
- 统计量表【包含缺失值】
- 数据分布可视化
数据准备
主要是清洗数据、选择合适的特征以便建立模型。为更好地把握数据特征的分布,需要对准备好的数据集进行必要描述。
- 选择数据
- 数据清洗:缺失值、异常值
- 数据构建:特征生成和特征筛选
- 数据集成:多个数据集
- 数据格式化:纠偏、归一化等
- 数据集描述:查看分布,确保数据质量。
建立模型
主要是通过技术手段实现模型的建立、参数调整和评估。
建立:模型选择:有、无监督等、模型技术、要求和假设说明
评估:评估指标、测试集、交叉验证
调参:模型调优:gridSearch、optuna
模型评估
主要基于业务场景的应用,对模型进行效果评价,是否达成了业务目标或关键结果KR.
模型评价:商业角度
过程回顾:梳理挖掘过程的逻辑
优化思路:下一步的行动列表
结果部署
主要是模型的后期部署和整个数据挖掘过程
部署
维护
报告
总结
文件夹的内部框架
D:DataMining_Proc.
│ 数据挖掘.md
│
├─A1_businessUnderstanding
│ 商业理解STAR报告.md
│
├─A2_dataUnderstanding
│ │ A11 数据初步采集报告.txt
│ │ A12 数据描述报告.txt
│ │ A13 数据探索分析报告.txt
│ │ A14 数据质量报告.txt
│ │
│ ├─code
│ ├─data
│ ├─result
│ └─tmp
├─A3_dataPreparation
│ │ A31 数据清洗报告.md
│ │ A32 数据生成和集成.md
│ │ A33 描述性统计分析报告.md
│ │ A34 数据集描述.md
│ │
│ ├─code
│ ├─data
│ ├─result
│ └─tmp
├─A4_modeling
│ │ A41 模型参数调优报告.md
│ │ A41 模型技术、要求与假设.md
│ │
│ ├─A41_initModel
│ └─A42_paraOpt
├─A5_modelEvaluation
│ │ A51 模型评估结果.txt
│ │
│ ├─code
│ ├─data
│ ├─result
│ └─tmp
└─A6_resultDeployment│ A61 结果发布计划.md│ A62 监测和维护模型计划.md│ A63 数据挖掘报告.md│ A64 项目回顾.md│├─code│ dataPrep.py│ main_proc.py│ xgboost_test.py│├─data├─model└─result```
更多推荐
数据挖掘基本流程 CRISP
发布评论