数据挖掘基本流程 CRISP

编程入门 行业动态 更新时间:2024-10-25 06:33:27

<a href=https://www.elefans.com/category/jswz/34/1769747.html style=数据挖掘基本流程 CRISP"/>

数据挖掘基本流程 CRISP

CRISP-DM数据挖掘基本流程

  • 数据挖掘的基本流程图
  • CRISP-DM
  • CRISP-DM的实现方法
    • 商业理解
    • 数据理解
    • 数据准备
    • 建立模型
    • 模型评估
    • 结果部署
    • 文件夹的内部框架

数据挖掘的基本流程图

在实际的数据挖掘过程中,基本会经历一下的这些流程(主要参考CRISP-DM的流程,下文有详述。)。其中包含两个小循环和一个大循环。

  • 第一个小循环是商业理解和数据理解之间的指标的反复构建和优化。
  • 第二个小循环是数据准备和建立模型,主要涉及到对数据的各种变换:清洗、特征筛选、特征生成、数据集成等。
  • 一个大循环是指,在结果部署之前,通过模型的评估,可能会回溯到商业理解的地方,对分析过程重新来过。

CRISP-DM

CRoss Industry Standard Process for Data Ming. 跨行业的基本数据挖掘流程。

下图是对数据挖掘各个阶段内应包含的内容做以简述。

CRISP-DM的实现方法

商业理解

主要目的是了解业务背景、目标和痛点、制定合理的行动方案和可预期的成果。

STAR法则:状况、任务、行动、结果
OKR准则:通过定义目标O,设置关键成果KR.
SMART准则:对任务制定时,可以遵循该准则,具体(specific)、可衡量(Measurable)、可达成(Attainable)、相关(Relevant)、截止时间(Time-bound).

数据理解

主要内容是字段解释、分布解释、质量解释。

  1. 数据读取
  2. 数据审查
    1. 字段解释【分类、连续】
    2. 统计量表【包含缺失值】
    3. 数据分布可视化

数据准备

主要是清洗数据、选择合适的特征以便建立模型。为更好地把握数据特征的分布,需要对准备好的数据集进行必要描述。

  1. 选择数据
  2. 数据清洗:缺失值、异常值
  3. 数据构建:特征生成和特征筛选
  4. 数据集成:多个数据集
  5. 数据格式化:纠偏、归一化等
  6. 数据集描述:查看分布,确保数据质量。

建立模型

主要是通过技术手段实现模型的建立、参数调整和评估。

建立:模型选择:有、无监督等、模型技术、要求和假设说明
评估:评估指标、测试集、交叉验证
调参:模型调优:gridSearch、optuna

模型评估

主要基于业务场景的应用,对模型进行效果评价,是否达成了业务目标或关键结果KR.

模型评价:商业角度
过程回顾:梳理挖掘过程的逻辑
优化思路:下一步的行动列表

结果部署

主要是模型的后期部署和整个数据挖掘过程
部署
维护
报告
总结

文件夹的内部框架

D:DataMining_Proc.
│  数据挖掘.md
│
├─A1_businessUnderstanding
│      商业理解STAR报告.md
│
├─A2_dataUnderstanding
│  │  A11 数据初步采集报告.txt
│  │  A12 数据描述报告.txt
│  │  A13 数据探索分析报告.txt
│  │  A14 数据质量报告.txt
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
├─A3_dataPreparation
│  │  A31 数据清洗报告.md
│  │  A32 数据生成和集成.md
│  │  A33 描述性统计分析报告.md
│  │  A34 数据集描述.md
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
├─A4_modeling
│  │  A41 模型参数调优报告.md
│  │  A41 模型技术、要求与假设.md
│  │
│  ├─A41_initModel
│  └─A42_paraOpt
├─A5_modelEvaluation
│  │  A51 模型评估结果.txt
│  │
│  ├─code
│  ├─data
│  ├─result
│  └─tmp
└─A6_resultDeployment│  A61 结果发布计划.md│  A62 监测和维护模型计划.md│  A63 数据挖掘报告.md│  A64 项目回顾.md│├─code│      dataPrep.py│      main_proc.py│      xgboost_test.py│├─data├─model└─result```

更多推荐

数据挖掘基本流程 CRISP

本文发布于:2023-06-18 12:59:23,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/771255.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:数据挖掘   流程   CRISP

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!