R语言学习笔记之——数据处理神器data.table

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言学习笔记之——数据处理神器data.table相关的知识,希望对你有一定的参考价值。

前言

数据处理在数据分析流程中的地位相信大家都有目共睹,也是每一个数据从业者面临的最为繁重的工作任务。

在实际应用场景下,虽然SQL(SQL类专业的etl语言)是数据处理的首选明星语言,性能佳、效率高、容易培养数据思维,但是SQL没法处理构建全流程的数据任务,之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。

R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在着性能和效率的绝大差异。

合理选择一套自己的数据处理工具组合算是挺艰难的选择,因为这个涉及到使用习惯和迁移成本的问题,比如你先熟知了R语言的基础绘图系统,在没有强大的驱动力的情况下,你可能不太愿意画大把时间去研究ggplot2,你用会写for/while循环,就不太愿意去掌握apply组函数,甚至那些性能逆天的并行算运算包;刚开始会用基础字符串处理,看到stringr包就面临着技能工具更新的问题……

太多的选择,让人眼花缭乱,我自己也遇到过这种困惑,为了避免注意力分散,我的做法是先做可能性罗列——罗列一个可以实现同类功能的所有工具清单并做一套功能卡(也算是初步了解)。然后根据自己掌握的现状选择最熟练的一套,随着时间的推移慢慢发现现有工具组合的不足,开始尝试往更加高效、简介的工具迁移,这样以需求为推动力的技能升级和迁移更为彻底和明确。

最典型的几个技能组合迁移如下:

基础字符串处理函数——stringr
绘图系统:plot——ggplot2
代码风格:函数嵌套

以上是关于R语言学习笔记之——数据处理神器data.table的主要内容,如果未能解决你的问题,请参考以下文章

R语言中的prophet预测时间序列数据模型

R语言dataframe(data.table)使用用最近的前一个非NA值向前填充缺失值NA实战

从零开始系列-R语言基础学习笔记之二 数据结构

Python爬虫系列之 xpath:html解析神器

从零开始系列-R语言基础学习笔记之二 数据结构

R语言可视化学习笔记之添加p-value和显著性标记