在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?
Posted
技术标签:
【中文标题】在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?【英文标题】:In RStudio, can I visually preview Spark Dataframes in the GUI like I can with normal R dataframes? 【发布时间】:2021-10-16 04:48:26 【问题描述】:背景
这可能是我缺乏技能展示,但当我在R
中使用 RStudio 进行数据操作时,我喜欢点击 GUI 的“环境”部分中的数据框(对我来说它是在屏幕的右上角)查看我的联接、变异等在我完成工作流程时如何更改表。它对我来说是一种视觉上的健全性检查;当谈到表格和数据框时,我是一个非常直观的思考者,我喜欢在编写代码时查看我的结果。例如,我点击这个:
然后看到这样的东西:
问题
最近,由于数据集非常大(约 200m 行),我需要在 sparklyr
中做一些我的 dplyr
工作,使用 Apache Spark 的本地实例来完成一些数据操作。它工作得很好,但我无法预览数据,因为 spark 数据框对象看起来像环境窗格中的列表:
除了单击之外,还有什么方法可以让我在处理 RStudio 时“预览”我的 Spark 数据框?
我的尝试
所以你的第一个想法可能是“只使用head()
”——你是对的!除了在具有 2 亿行的本地 Spark df
上运行 head(d1, 5)
需要......很长时间。
我可能遗漏了什么?
【问题讨论】:
【参考方案1】:一般来说,我认为您需要在 Spark 数据帧上调用 collect()。所以我会首先使用 sparklyr::sdf_sample
函数对 Spark 数据帧进行采样,例如 0.001% 的行(如果有 2 亿行),然后将该样本收集到常规数据帧中进行查看。
samp <- analysis_test %>% sdf_sample(fraction = .00001) %>% collect()
【讨论】:
非常感谢,Travis -- 我认为这可以正常工作。我暂时不在电脑旁,但我一回来就会运行它,并标记我的问题是否有效。以上是关于在 RStudio 中,我可以像使用普通 R 数据框一样在 GUI 中直观地预览 Spark 数据框吗?的主要内容,如果未能解决你的问题,请参考以下文章