知网查重论文样例--数据挖掘过程
在认识数据挖掘过程之前,首先要了解数据挖掘与知识发现(Knowledge Discovery in Database,KDD)之间的关系。数据挖掘与KDD紧密相连,初学者往往认为数据挖掘与知识发现就是同义词,但严格来说数据挖掘只是知识发现过程中的一个核心环节,数据挖掘最终是要挖出有用的知识。
一个完整的数据挖掘过程主要分为三个阶段:数据准备阶段、数据挖掘阶段和结果的解释和评价阶段[17]。而数据准备阶段又包括数据清洗、数据集成和转换、数据归约和变换。一个数据挖掘的完整过程如图2-1所示。
1)数据清洗(data cleaning)。对不完整和包含噪声的数据进行噪声和无用数据的清除,空缺值的填补,异常值的修正。对噪声清除的方法有分箱、聚类分析与回归分析等;对空缺值处理的方式有忽略元祖、忽略属性列、人工填补和自动填补等。
2)数据集成(data integration)。把来自多个数据数据源的数据整合一致存储到一起的过程。
3)数据选择(data selection)。根据要挖掘的对象及目标,从数据仓库中抽取出相关数据集来提高数据的质量。
4)数据转换(data transformation)。将选出的数据转换为易于被挖掘的形式。数据转换包括平滑、聚集、数据泛化、规范化、属性构造和数据离散化[13]。
5)数据挖掘(data mining)。利用智能的方式从数据中挖掘抽取出规律或模式。
6)模式评估(pattern evaluation)。根据一定的评估标准,使用某种特定的手段对发现的规律或模式进行评估以选出有意义的知识。
7)知识表示(Knowledge representation)。对挖掘出的规律知识利用可视化的方法和知识表现技术进行解释,最终转化成用户易于理解的知识。
数据挖掘过程中的步骤是要反复循环执行的,任何一个步骤出现错误或与目标不一致的情况都要返回重新执行操作,直到与预期目标一致为止。