数据挖掘简述和weka介绍
操作方法
- 01
写在开篇 weka用了一些时日了,觉得真心不错。功能很完善,而且是开源的。最重要的扩展方便,非常适合搞研究和做全国大学生数学建模之类的比赛。 我学习weka主要是看的一本数据挖掘和weka使用的书,是英文的。国内有中文版…但是不想吐就不要看译本吧,不知道是翻译的人是怎么想的. 我写博文的顺序和参考书顺序是一样的,一方面是我觉得原书的学习顺序很合理,另外一个方面是因为我也确确实实是按照这个顺序学的。 文章的内容一部分是我大致翻译的原书内容,一部分是我的实际经验。 weka的中文资料还是有一些的,但是我没有找到一个较为系统,所以准备自己写一个系列出来。因为数据挖掘涉及一些比较专业的知识,我虽然是学数学的,但毕竟不是专职做数据挖掘的,如果有什么错误和疏漏还希望大家指正。 数据挖掘的发展背景 我们正在被数据所困扰。在我们生活的世界中,数据不断增长。无所不在的个人计算机使原本应该被废弃的数据现在可以很轻易地被保存。廉价的存储设备可以让我们简简单单存储数据而不急于决定其用途,我们所需要的只是再买个硬盘然后继续保存数据。 互联网让我们被信息淹没,但另一个方面每一个选择都被记录下来。它们都是私人的数据,每一个数据都对应了一个个体。数据的数量高速增长,但让人感到遗憾的是,人们的认知和知识保有量却没有同步增长。信息隐藏在大量数据中,那些极有用处的信息没有被发现和重复利用。 寻找数据中的模式是一切的核心,这并不是多么新奇或者高级的事情,从人类出现开始人们就开始寻找模式。猎人从动物迁徙行为中寻找模式;农夫从谷物生长中寻找模式;政客寻求选民意见的模式;科学家寻找物理世界的模式并将其浓缩成理论;企业家评估风险,从行为中寻找模式并将其转化为可以盈利的事业并开阔它们。 经济学家、统计学家和工程师们为了模式可以被自动风险、识别、验证并用于验证这个目标奋斗了相当长的时间,如洪水般增长的数据增加了发现规律的可能性,并使其成为前沿热点技术。据预测,存储于全球的数据每隔20个月就可以翻一倍,当世界不断变得复杂,我们被淹没于数据之中时,数据挖掘将成为极为有价值的技术。它可以让人们获得新的视角并在商业竞争中获得竞争优势。