数据挖掘是通过分析大量数据发现隐藏的、有价值的知识的过程。此外,我们必须将这些数据存储在不同的数据库中。因此,需要一个标准的数据挖掘流程。
CRISP-DM(数据挖掘的跨行业标准流程)是一种强大且经过充分验证的方法,它提供了一种结构化方法来解决任何行业中几乎任何分析问题。
它为从新手到数据挖掘专家的任何人提供了执行数据挖掘项目的完整蓝图。
CRISP-DM框架流程:
CRISP-DM 将数据挖掘项目的生命周期分为六个阶段。
1、业务理解
A) 确定业务目标
对于数据分析师来说,了解业务及其具体问题至关重要。您应该清楚地理解问题,将其转化为明确定义的分析问题。只有这样你才能制定出色的策略来解决它
B) 确定数据分析的目标
必须了解当前情况,并根据这些见解,必须定义执行流程的目标。这应该在制定计划之后进行。
2、数据理解
CRISP-DM 框架的数据理解阶段侧重于收集数据、描述和探索数据。
此阶段包括四个关键步骤,以了解可用数据并识别新的相关数据以解决业务问题
收集相关数据:
您需要识别并收集可用于分析的正确数据集。
描述数据 - 获取明确的信息:
确定数据集后,您需要描述其内容并探索见解,以更好地理解数据及其业务含义。
通过绘制图表探索数据:
数据理解的一个关键部分是通过绘制图表探索数据。可以通过图表获得以下类型的见解。a ) 发现异常值 b),观察变量的趋势(增加/减少)等 c) 观察变量之间的相关性
验证数据质量以消除错误:
了解数据结构后,您接下来可以检查数据质量并解决各种因素
3、数据准备
数据通常分布在不同的文件中。将这些文件整理在一起并根据业务理解选择所需的行和列是数据准备的一个重要步骤。整理数据集后,我们解决缺失值和异常值。这被认为是最关键的步骤,因为模型将基于此处创建的数据集构建。
数据准备任务可能会执行多次,并且不按任何规定的顺序执行。任务包括表、记录和属性选择以及建模工具的数据转换和清理。
它由以下步骤组成:
选择相关数据
整合数据
干净的数据
构建数据:派生新特征
格式化数据
4、数据建模
建模是数据分析的核心。
它是按以下方式执行的:
选择建模技术是第一步
接下来是生成测试场景以验证模型的质量。
之后又生成了一些模型。
然后对所有模型进行评估,以确保它们符合业务计划。
5、模型评估
可以测试预测模型以评估其解决问题的有效性。建模和评估是一个迭代过程,模型不断调整,直到获得满意的评估结果。
6、模型部署
这是框架的最后阶段,模型将转化为业务策略。业务数据被输入到模型中,模型结果用于持续为业务决策提供信息。
CRISP-DM框架的优点
CRISP-DM 框架提供了一个统一的框架
- 有指南和经验文档
- CRISP-DM 可以灵活地解决不同的业务/机构问题和不同的数据