数据挖掘的功能
操作方法
- 01
数据挖掘是为了从现有数据中获得信息,但它也不是万能,能够发现的知识主要是以下5种: 1.概念知识 类别特征的概括性描述知识。根据数据的微观特征发现同类事物带有普遍性的、较高层次概念的共同性质,是一种对数据的概况、提炼和抽象。 2.关联知识 主要反映一个事件和其他事件之间依赖或者关联性。如果两项或者多项属性之间存在关联,那么其中一项的属性值就可以根据其他属性值进行预测。这类知识发现方法中最有名的就是Apriori算法。 3.分类知识 主要反映同类事物的共同特征和不同事物之间的差异。 4.预测性知识 根据历史数据和当前数据对未来数据进行预测,主要是时间序列预测。 5.偏差性知识 这是对差异和阶段特例的揭示,如数据聚类的离群值等。 相较于挖掘能够发现的知识而言,数据挖掘的方法类型很多,大致可以分为7类 1.决策树方法(信息论方法) 这类方法给予信息论原理,直观容易理解。一般来说这类方法效果好,影响力大。代表算法:ID3算法、C4.5算法、IBLE算法。 2.聚类方法 比较样本距离,距离近的归为一类,距离远的分属在不同的类中。代表算法:k均值、Clara算法、变色龙算法。 3.统计分析方法 利用统计学原理对数据进行分析,这方面有大量的商业软件可以选用。 4.仿生物技术 代表算法:神经网络算法和遗传算法,当然包括两者的其他衍生或近似算法,如鸟群算法。 5.可视化技术 对传统图标功能的一种扩充,让用户对数据的剖析更清晰。 6.模糊数学方法 我最喜欢的一类方法,包括模糊评判、模糊决策、模糊模式识别和模糊聚类。可以参考我以前的有关Aforge.net的博文。 7.其他 其他就是其他,比如SVM、文件挖掘、最近邻方法等。
赞 (0)