有哪些开源的数据挖掘工具?
1、RapidMiner
该工具用Java语言编写,通过基于模板的框架提供高级分析技术。这个工具最大的好处就是用户不用写任何代码。它是作为服务提供的,而不是作为本地软件。值得一提的是,该工具在数据挖掘工具排行榜中排名第一。
此外,除了数据挖掘,RapidMiner还提供了数据预处理和可视化、预测分析和统计建模、评估和部署等功能。更重要的是,它还提供了来自WEKA(一种智能分析环境)和R脚本的学习方案、模型和算法。
RapidMiner是在AGPL开源许可下发布的,可以从SourceForge下载。SourceForge是一个开发者集中开发和管理的地方,大量开源项目在这里落户,包括维基百科使用的MediaWiki。
2、WEKA
WEKA的本地非Java版本主要用于分析农业领域的数据。该工具基于Java版本,非常复杂,应用于许多不同的应用,包括数据分析和可视化以及预测建模的算法。与RapidMiner相比,优点是在GNU通用公共许可证下是免费的,因为用户可以根据自己的喜好选择定制。
WEKA支持各种标准的数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选择。
加入序列建模后,WEKA会变得更强大,但目前不包含。
3、R编程
如果我告诉你,R项目,一个GNU项目,是R(简称R-programming,以下简称R)写的,你会怎么想?主要是用C和FORTRAN编写的,很多模块都是用R编写的,R是一个针对编程语言和软件环境的统计计算和绘图的免费软件。r语言广泛应用于数据挖掘、统计软件开发和数据分析。近年来,易用性和可扩展性也大大提高了R的受欢迎程度。
除了数据,它还提供统计和映射技术,包括线性和非线性建模、经典统计测试、时间序列分析、分类、收集等。