在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?

Posted

技术标签:

【中文标题】在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?【英文标题】:In RStudio, can I visually preview Spark Dataframes in the GUI like I can with normal R dataframes? 【发布时间】:2021-10-16 04:48:26 【问题描述】:

背景

这可能是我缺乏技能展示,但当我在R 中使用 RStudio 进行数据操作时,我喜欢点击 GUI 的“环境”部分中的数据框(对我来说它是在屏幕的右上角)查看我的联接、变异等在我完成工作流程时如何更改表。它对我来说是一种视觉上的健全性检查;当谈到表格和数据框时,我是一个非常直观的思考者,我喜欢在编写代码时查看我的结果。例如,我点击这个:

然后看到这样的东西:

问题

最近,由于数据集非常大(约 200m 行),我需要在 sparklyr 中做一些我的 dplyr 工作,使用 Apache Spark 的本地实例来完成一些数据操作。它工作得很好,但我无法预览数据,因为 spark 数据框对象看起来像环境窗格中的列表:

除了单击之外,还有什么方法可以让我在处理 RStudio 时“预览”我的 Spark 数据框?

我的尝试

所以你的第一个想法可能是“只使用head()”——你是对的!除了在具有 2 亿行的本地 Spark df 上运行 head(d1, 5) 需要......很长时间。

我可能遗漏了什么?

【问题讨论】:

【参考方案1】:

一般来说,我认为您需要在 Spark 数据帧上调用 collect()。所以我会首先使用 sparklyr::sdf_sample 函数对 Spark 数据帧进行采样,例如 0.001% 的行(如果有 2 亿行),然后将该样本收集到常规数据帧中进行查看。

samp <- analysis_test %>% sdf_sample(fraction = .00001) %>% collect()

【讨论】:

非常感谢,Travis -- 我认为这可以正常工作。我暂时不在电脑旁,但我一回来就会运行它,并标记我的问题是否有效。

以上是关于在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?的主要内容,如果未能解决你的问题,请参考以下文章

一文掌握R语言快速实现普通Meta分析

Ubuntu中使用Anaconda安装R,Rstudio

如何更新r studio上r的版本

如何在阿里云上部署Rstudio server

rstudio如何加载函数?

R.003 Rstudio使用