你,值得拥有的那些数据挖掘工具

Posted KPMG大数据挖掘

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了你,值得拥有的那些数据挖掘工具相关的知识,希望对你有一定的参考价值。





 1   SASData Mining 

SAS丰富的数据采集、数据管理、数据分析和信息展现的能力,使之成为决策支持的最好的工具;SAS又推出了套装的SAS/Enterprise Miner这一企业级的数据处理分析和决策支持软件包。SAS系统的软件和这些软件运用的无数成功经验,能帮助企业从堆积如"山"的数据中"挖掘"出隐藏着的规律性,以支持正确的经营决策。SAS具有以下特点:


  • 数据清洗的高效性:通过结合data步和proc步来进行,效率非常高,可以实现各种不同的数据清洗。包括数据类型转化、数据观测的更改、删除、填补、简单的数据统计等

  • 模型算法的多样性:SAS里包含多种算法,从常见的聚类、逻辑回归、线性回归、非线性回归,到决策树、神经网络等

  • SAS宏功能:SAS里面的宏很常见且应用广泛。从数据清洗的批量计算,到建模的参数输入,这类宏类似于R的算法包,只是在SAS里以宏的形式存在


Gartner Group在评价数据挖掘工具时,也特别提到了面对各种不同类型人员的可伸缩性和完整性。SAS系统提供了适合不同业务水平不同数学、计算机水平的各类人员使用的既完整,又有伸缩性的摸块化的工具。SAS极富竞争优势的解决方案包括:Artificial Intelligence andMachine Learning, 高级分析,Internet of Things, 客户智能,数据管理,风险管理,欺诈与安全智能,Analytics Platform等。现在已协助Honda, Bank ofAmerica, WWF等大客户完成他们的数据分析工作。


你,值得拥有的那些数据挖掘工具


 2  Python  

  你,值得拥有的那些数据挖掘工具

Python是一种免费的开源语言,简单易学,特别适合初学者,只要你熟悉变量、数据类型、函数、条件语句和循环等基本编程概念,最常见的业务用例数据可视化就很简单。它的开发效率高, Python有非常强大的第三方库,基本上你想通过计算机实现任何功能, Python官方库里都有相应的模块进行支持,直接下载调用,在基础库的基础上在进行开发,大大降低开发周期;它具有可移植性 – 由于它的开源本质,你的Python程序无需修改就几乎可以在市场上所有的系统平台上运行;它具有可扩展性 – 你可以把你的部分程序用C或C++编写,然后在你的Python程序中使用。

Python的应用非常广泛。它的一些最常见的应用领域包括:

  • 云计算(OpenStack等)

  • 人工智能(Google的TransorFlow 、FaceBook的PyTorch等)

  • 系统运维(自动化配置管理工具等)

  • 金融工程(量化交易、金融分析等)

  • 大数据(数据分析、交互、可视化等)

  • WEB开发(YouTube、豆瓣、知乎等)

          

 3 IBMSPSS 

 你,值得拥有的那些数据挖掘工具你,值得拥有的那些数据挖掘工具


SPSS是全球领先的统计分析与数据挖掘产品,是世界上应用最广泛的专业统计和数据模型软件之一。2009年被IBM全资收购,正式更名为“IBMSPSS”, 其功能强大,包括:


  • 统计学分析和报告:涵盖整个分析流程,规划、数据收集、分析、报告和部署;

  • 数据挖掘和预测建模:利用强大的建模、评估和自动化功能;

  • 决策管理和部署:在内部部署环境、云端或混合环境实施先进的模型管理和分析决策管理,充分发挥分析的潜能;

  • 大数据分析:分析大数据以获取预测性洞察,制定有效的业务战略;


SPSS软件包括用于数据挖掘的SPSS Modeler和用于统计分析的SPSS Statistics:SPSS Modeler是全球领先的数据挖掘、预测分析平台软件,它允许您在不编程的情况下生成各种数据挖掘算法。它拥有简单的图形界面和高级分析能力,发现结构化和非结构化数据中的趋势,使得企业和分析师增加生产力,获得前所未有的深入了解和预测,可在云端使用。


SPSS Statistics是一款统计分析软件,提供了执行全程分析所需的核心功能。 易于使用,包含范围广泛的过程和技术,能帮助您增加收入,超越竞争对手,组织调研并制定更好的决策。


 4 R语言 

  你,值得拥有的那些数据挖掘工具

作为一个免费的统计软件,R可运行于多种平台上,包括Windows, UNIX, MacOS和Linux。R可以轻松地从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计软件,以及专门的数据仓库。它同样可以将数据输出并写入到这些系统中。R具有较高的开放性,不仅提供功能丰富的内置函数供用户调用,也允许用户编写自定义函数来扩充功能。


R作为免费、开源、庞大社区支持的统计计算和作图的语言,提供了大量的第三方功能包,其内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型等各个方面。


界面展示:

你,值得拥有的那些数据挖掘工具


 5 OracleData Mining 

你,值得拥有的那些数据挖掘工具

Oracle Data Mining是Oracle数据库中内嵌的强大的数据挖掘软件,它能够揭示隐藏在数据中的新洞察。Oracle Data Mining能够帮助企业瞄准最佳客户、发现和防止欺诈、发现对关键绩效指标(KPI)最有影响的属性,以及发现隐藏在数据中的有价值的新信息。Oracle DataMining帮助技术专家找出数据中的模式、识别关键属性、发现新的集群和关联,并揭示有价值的洞察。


  • 使用Oracle DataMining,您可以实施策略来:

  • 预测和防止客户流失

  • 获得新客户并识别最能带来收益的客户

  • 识别会成功的交叉销售的机会

  • 洞察违规的和欺诈性的互动

  • 发现新的集群或片段

  • 找出同时出现的项目和/或事件的关联关系

  • 挖掘非机构化数据


Oracle提供的数据挖掘优势:

  • 没有数据的迁移。有部分数据挖掘项目需要将数据从企业数据库中导出来,且要以特定的格式进行转换。使用ODM,便不再需要数据迁移和数据转换;

  • 数据将收到Oracle数据库广泛的安全机制的保护;

  • 自动的数据准备和管理。在数据挖掘项目中,高达80%的努力都是在对投入的数据进行清理,过滤,规范化,取样等,这些Oracle都可以进行自动的管理;

  • 数据刷新的便捷。在Oracle数据库的挖掘过程中,可以随时进行数据的刷新。ODM可以基于当前数据轻松的递交挖掘结果。从而极大的提高了数据挖掘的时效性和相关性;

  • Oracle数据库分析。Oracle数据库提供了很多高级分析功能和商业智能功能。ODM可以很方便的与数据库的其他分析功能相集成

  • 应用程序接口。Oracle数据库内部为数据挖掘提供了直接的PL/SQL接口;


   RapidMiner

  你,值得拥有的那些数据挖掘工具 

Rapid Miner是一个用于机器学习和数据挖掘实验的环境,用于研究和进行实际的数据挖掘任务,是世界领先的数据挖掘开源系统。用JAVA编程语言编写的RapidMiner为深度学习、文本挖掘、机器学习和预测分析提供了一个集成的环境。它包含前置资料准备,模型能力及机器学习演算法、建模评估及性能验证,其功能完善,集群、各类决策树、回归、类神经网络、支持向量机分类等,共1500个功能及模型,可与Python, R整合,可连接60+种资料档案来源,包括SAS, Stata, Excel, Access, CSV;可连接资料库,包括Oracle,IBM DB2,SQL Server, My SQL等;文字与网页资料如PDF, html, XML等。内建80+种功能针对文字,图像,语音,网络资料,多媒体资料进行分析建模。RapidMiner提供建模建议,上百种适用于监督学习 (Supervised Learning)与非监督学习(UnsupervisedLearning)的机器学习模组。RapidMiner也提供模型验证功能,让使用者在建模时能有效评估模型可适性,验证模型准确度,提升预测能力。RapidMiner协助各个领域运用人工智能机器学习,提升企业决策能力与竞争优势。

界面展示:

你,值得拥有的那些数据挖掘工具


  7 Orange开源机器学习交互式数据分析工具

你,值得拥有的那些数据挖掘工具

Orange是一个开源数据可视化、机器学习和数据挖掘工具包。它有一个可视化编程前端,可用于探索性数据分析和交互式数据可视化。Orange是一个基于组件的可视化编程软件包,用于数据可视化、机器学习、数据挖掘和数据分析。Orange组件称为窗口组件,范围广泛:从简单的数据可视化、子集选择和预处理,到学习算法和预测建模的评估,不一而足。Orange的可视化编程通过界面来进行,其中工作流程通过连接预定义或用户设计的窗口组件来创建,而高级用户可以将Orange用作Python库,以便操纵数据和更改窗口组件。


它的图形环境称为Orange画布, 用户可以在画布上放置分析控件,然后把控件连接起来,每个组件(称为小部件)都嵌入了一些数据检索,预处理,可视化,建模或评估任务,即可组成挖掘流程。除了界面友好易于使用的优点,Orange的强项在于提供了大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。此外,它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。


界面展示:

你,值得拥有的那些数据挖掘工具


         8 Weka

  你,值得拥有的那些数据挖掘工具

Weka的全名是怀卡托智能分析环境。作为一个公开的数据挖掘工作平台,Weka集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、收集、分类、回归、聚类、关联规则、特征选取以及在新的交互式界面上的可视化。开发者可使用JAVA语言,基于Weka的架构开发出更多的数据挖掘算法。在Weka中可以方便地集成自己的算法或者借鉴它的方法自己实现可视化工具。与R相比,Weka提供了更广阔的选择数据和机器学习的技术。Weka提供的函数更全面更集中,所以通常在R中准备好训练的数据,整理成Weka需要的格式并在Weka里进行机器学习。此外,用户还可以在Weka论坛找到很多扩展包,比如文本挖掘、可视化、网格计算等等,很多其它开源数据挖掘软件也支持调用Weka的分析功能。


下图展示Weka能实现的建模功能与R的区别:


你,值得拥有的那些数据挖掘工具


界面展示:

你,值得拥有的那些数据挖掘工具


  9  KNIME数据挖掘建模工具

你,值得拥有的那些数据挖掘工具

KNIME是基于Eclipse, 用Java编写的一款开源的数据分析、报告和综合平台。KNIME拥有数据提取、集成、处理、分析、转换以及加载所需的所有数据挖掘工具。此外,它具有图形用户界面,可以帮助用户轻松连接节点进行数据处理。它通过工作流的方式来完成数据仓库以及数据挖掘中数据的抽取-转换-加载操作。KNIME采用的是类似数据流(DATA FLOW)的方式来建立分析挖掘流程,挖掘流程由一系列功能节点组成,每个节点有输入/输出端口,用于接收数据或模型、导出结果。KNIME的可视化数据流和分析报告的设计能力,利于对数据ETL、建模、分析、报告。


它结合了数据挖掘和机器学习的各种组件,对商业情报和财务数据分析非常有帮助。

界面展示:

你,值得拥有的那些数据挖掘工具

 


 10  ApacheMahout 

          


Apache Mahout是由Apache基金会开发的一个开源项目,其主要目的是提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更方便快捷地创建智能应用程序。它主要集中关注于数据聚类、分类和协同过滤。Mahout是由JAVA语言编写的,它其中也包括JAVA库,用于执行线性代数的统计等数学运算。随着在Apache Mahout内部实现的算法的数量的不断增长,Mahout也不断成熟。Mahout的算法通过Mapping/减少模板的方式,已经达到了Hadoop以上的水平。总体来看,Mahout具有以下主要功能:


- 可扩展的编程环境

- 预先制定的算法

- 数学实验环境

- GPU计算性能改进


 11  Rattle

作为优秀的统计软件包,R语言提供了强大的数据挖掘工具,但是这些工具分散在数以百计的R包之中,而且写脚本和编程往往也会成为快速解决问题的障碍。Rattle的出现就很好的解决了这个问题。Rattle是一个用于数据挖掘的R的图形交互界面,可用于快捷地处理常见的数据挖掘问题。从数据的整理到模型的评价,Rattle给出了完整的解决方案。Rattle和R平台良好的交互性又为用户使用R语言去解决复杂问题开启了方便之门。Rattle基于一个完整的数据挖掘流程去开发了一套方便的标签栏:


Data: 选择数据源,输入数据。

Explore:执行数据探索,理解数据分布。

Test:提供各种统计检验。

Transform:变换数据的形式。

Cluster:数据聚类,包括系统聚类,k-均值聚类,和双聚类(biclustering)。

Associate:关联规则方法。

Model: 内容最丰富的一个标签。包括多种方法:决策树,支持向量机,线性模型,

神经网络,随机森林,提升(Boost)

Report按钮,可以完成当前操作的格式化报告(以开放的标准ODT格式)。

Export按钮,可以输出来自Rattle的各种对象,特别的,完成Model标签的相关操作后,它会以PMML格式保存当前模型。


Rattle易学易懂,不要求很多的R语言基础,被广泛地应用于数据挖掘实践和教学之中。


12  IBMCognos        

                                

IBM Cognos Analytics提供由人工智能驱动的数据探索和发现功能,以及直观而全面的仪表盘、灵活的专业报告撰写功能和自动化数据准备功能。智能的自助功能,帮助用户快速的挖掘洞察,并据此采取行动。它让用户能在用户本身期望的自主分析和在企业期望的IT管控之间获得平衡,操作界面简单易用,整合多维数据库,内存OLAP的大数据平台,绝大多数查询都可以实现秒级返回。借助Cognos Analytics软件,用户就能够讲述内容丰富、细致入微、令人信服的数据故事。凭借该软件,企业就能够支持业务用户探索并使用各种不同的企业和个人数据,做出更出色的业务决策。


亮点:CognosAnalytics能基于您最近的互动情况,自动确定数据关系,帮助消除分析盲点和猜测;揭示成果的底层推动因素,发现各个数据字段之间的关系;提供推荐的可视化功能,以自然语言展示人工智能所产生的更多洞察;自动创建可视化效果,甚至为所选的数据推荐最具有吸引力的可视化形式;根据系统的建议,联结不同来源的数据,轻松组合与匹配数据。

以上是关于你,值得拥有的那些数据挖掘工具的主要内容,如果未能解决你的问题,请参考以下文章

你值得拥有的 11 个前端开发利器

你值得拥有的快乐

全方位认识HBase:一个值得拥有的NoSQL数据库

布隆过滤器你值得拥有的开发利器

你值得拥有的排序算法,冒泡快排桶排序

Python初学者值得拥有的3个Python优秀实践 你实践了嘛?