R语言系列介绍之二:强大的统计和数据挖掘工具

Posted 苔米信息

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言系列介绍之二:强大的统计和数据挖掘工具相关的知识,希望对你有一定的参考价值。

随着大数据时代的到来,数据挖掘和模式识别已逐渐成为新的医学科学研究范式。临床大数据集具有数据格式多样、复杂且难于统一的特点,常规的商业化统计分析软件难以适应临床数据挖掘的任务需要。今天为临床研究者和从事数据挖掘工作的医务人员介绍R语言这个实用工具的优点。

R语言系列介绍之二:强大的统计和数据挖掘工具

RSPSSSAS等传统统计软件相比较具有以下优点:

1  R具有良好的可编程性,其用户界面的友好性不输于SPSS,强于SAS,同时R属于开源、免费软件。

2  R本身体量小,功能强大,且具有易于扩展性,R开源社区的大量开发者提供了很多先进和实验性的统计模块及算法包,其中有些统计模块是SPSSSAS等商业软件无法及时提供的。商业软件SPSSSAS具有大公司的通病:对用户的需求漠不关心,反应极慢,不适应科研发展的快速需要。

3  R是一款脚本语言,具有良好的交互界面。通过输入命令行,可以直观且快速的获得结果,并以统计学家、研究者习惯的风格呈现在屏幕上。SPSSSAS界面更新慢、输出的结果十分凌乱,缺乏美感。

4  R几乎支持所有数据格式的载入。R不仅可以灵活方便的读取文本文档,也可以读取xlssavstataxml等流行软件的数据文件。

5  R作为可编程语言具有风格的优美性,清晰方便的数据管理等特点。它提供两种编程风格,既可以基于面向过程也可以基于面向对象。对于简单的统计算法的编程可以使用面向过程;对于复杂的统计算法开发,R提供了面向对象的S3S4类方法。

6  R可以出色的绘制出各种统计图表,功能十分强大。R提供的基础库函数以及其他开发者提供的绘图包(比如ggplotggplot2lattice等通用绘图包以及KEGGgraphRBGL等专用绘图包)足以满足各类研究者的可视化需求。

7  R具有十分优秀的并行计算性能(通过调用snowparallel并行计算包)。SPSSSAS用于常规统计尚不输于R,然而,一旦进入到临床大数据分析,两大商业软件在计算性和操作性上的劣势便显现出来,高下立判。

8R具有广泛的用户参与度和开发度。R是一款有坚实群众基础的软件,SPSSSAS则不然。体现在用户数上有着明显差异:已有的调查发现,SPSSSAS主要由生物医学研究者在使用,但其用户社区活跃度最低,反映出SPSSSAS的功能应用开发陷于停顿。以 前SPSSSAS在与R论辩时,常常使用的一个论点是它们都由大公司、大团队开发,比之于小制作的R,有其团队优势。然而,时易世移,经过十余年发展,R5000多个软件包,数以万计的社区开发者,良好可持续的开发文化,早已将恐龙般巨大的两大商业软件开发团队远远的抛在身后。

R语言系列介绍之二:强大的统计和数据挖掘工具

换言之,SPSSSAS代表的是20世纪垄断企业的作风,而R则属于21世纪。

R语言系列介绍之二:强大的统计和数据挖掘工具

  今天的内容就介绍到这里,“R语言系列介绍”将陆续为大家介绍更多R语言相关知识,欢迎大家关注学习。

了解更多详情

Easy Mining系统网址: http://em.taemine.com

官方网址:https://www.taemine.com

 

(文中部分图片来自网络)

扫描下方二维码关注“苔米信息”订阅号

以上是关于R语言系列介绍之二:强大的统计和数据挖掘工具的主要内容,如果未能解决你的问题,请参考以下文章

R语言 3.6.3版安装+获取

如何用r语言进行数据分类

分享|R语言数据挖掘分析常用包和函数

R语言基础1:R语言开启数据分析之路(附视频)|暑期系列

线上|直播数据分析与R语言制图实操班

R语言实用技巧