数据挖掘基本流程 CRISP

编程入门行业动态更新时间:2024-10-25 06:33:27

数据挖掘基本流程 CRISP

CRISP-DM数据挖掘基本流程

数据挖掘的基本流程图
CRISP-DM
CRISP-DM的实现方法
- 商业理解
- 数据理解
- 数据准备
- 建立模型
- 模型评估
- 结果部署
- 文件夹的内部框架

数据挖掘的基本流程图

在实际的数据挖掘过程中，基本会经历一下的这些流程（主要参考CRISP-DM的流程，下文有详述。）。其中包含两个小循环和一个大循环。

第一个小循环是商业理解和数据理解之间的指标的反复构建和优化。
第二个小循环是数据准备和建立模型，主要涉及到对数据的各种变换：清洗、特征筛选、特征生成、数据集成等。
一个大循环是指，在结果部署之前，通过模型的评估，可能会回溯到商业理解的地方，对分析过程重新来过。

CRISP-DM

CRoss Industry Standard Process for Data Ming. 跨行业的基本数据挖掘流程。

下图是对数据挖掘各个阶段内应包含的内容做以简述。

CRISP-DM的实现方法

商业理解

主要目的是了解业务背景、目标和痛点、制定合理的行动方案和可预期的成果。

STAR法则：状况、任务、行动、结果
OKR准则：通过定义目标O，设置关键成果KR.
SMART准则：对任务制定时，可以遵循该准则，具体（specific）、可衡量（Measurable）、可达成（Attainable）、相关（Relevant）、截止时间（Time-bound）.

数据理解

主要内容是字段解释、分布解释、质量解释。

数据读取
数据审查
1. 字段解释【分类、连续】
2. 统计量表【包含缺失值】
3. 数据分布可视化

数据准备

主要是清洗数据、选择合适的特征以便建立模型。为更好地把握数据特征的分布，需要对准备好的数据集进行必要描述。

选择数据
数据清洗：缺失值、异常值
数据构建：特征生成和特征筛选
数据集成：多个数据集
数据格式化：纠偏、归一化等
数据集描述：查看分布，确保数据质量。

建立模型

主要是通过技术手段实现模型的建立、参数调整和评估。

建立：模型选择：有、无监督等、模型技术、要求和假设说明
评估：评估指标、测试集、交叉验证
调参：模型调优：gridSearch、optuna

模型评估

主要基于业务场景的应用，对模型进行效果评价，是否达成了业务目标或关键结果KR.

模型评价：商业角度
过程回顾：梳理挖掘过程的逻辑
优化思路：下一步的行动列表

结果部署

主要是模型的后期部署和整个数据挖掘过程
部署
维护
报告
总结

文件夹的内部框架

D:DataMining_Proc.
│  数据挖掘.md
│
├─A1_businessUnderstanding
│      商业理解STAR报告.md
│
├─A2_dataUnderstanding
│  │  A11 数据初步采集报告.txt
│  │  A12 数据描述报告.txt
│  │  A13 数据探索分析报告.txt
│  │  A14 数据质量报告.txt
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
├─A3_dataPreparation
│  │  A31 数据清洗报告.md
│  │  A32 数据生成和集成.md
│  │  A33 描述性统计分析报告.md
│  │  A34 数据集描述.md
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
├─A4_modeling
│  │  A41 模型参数调优报告.md
│  │  A41 模型技术、要求与假设.md
│  │
│  ├─A41_initModel
│  └─A42_paraOpt
├─A5_modelEvaluation
│  │  A51 模型评估结果.txt
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
└─A6_resultDeployment│  A61 结果发布计划.md│  A62 监测和维护模型计划.md│  A63 数据挖掘报告.md│  A64 项目回顾.md│├─code│      dataPrep.py│      main_proc.py│      xgboost_test.py│├─data├─model└─result```

更多推荐

数据挖掘基本流程 CRISP

本文发布于:2023-06-18 12:59:23，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/771255.html