谷歌电子表格中最大的实用数据集?

Posted

技术标签:

【中文标题】谷歌电子表格中最大的实用数据集?【英文标题】:Largest practical datasets in Google spreadsheets? 【发布时间】:2017-02-12 08:29:35 【问题描述】:

我正在研究使用谷歌表格作为不同数据源的某种聚合解决方案。将这些数据源配置为输出到一个常见的谷歌表格是相当容易的,并且需要在线共享。这张表将充当我的原始、未经处理的数据源。然后,我将拥有一些基于该数据的仪表板/子表。

现在,早期测试似乎表明我将不得不小心效率,因为我似乎在推动电子表格的最大 200 万个单元格(我们谈论的是 15-20k 行数据和 100左右列)。处理数据似乎也很慢(不管单元格限制),至少使用公式,甚至考虑使用数组和避免 vlookups 等......

我的计划是创建其他文档(单独的文档,而不仅仅是添加选项卡)并通过导入范围和使用电子表格键来引用源数据。这些将使用每个仪表板仅需要的数据子集。这应该允许我创建比直接从我的大原始数据文件中设置运行得更快的仪表板,或者至少这是我的想法。

我在这里是在做傻事吗?有人在谷歌文档上研究过类似的大型数据集吗?基本上是想看看我的想法是否实用...如果您在架构方面有更好的想法,请分享...

【问题讨论】:

【参考方案1】:

我曾经遇到过类似的问题。

使用像您建议的那样的多层方法确实是解决此问题的一种方法。 电子表格本身存储这 200 万个单元格没有问题,问题在于所有数据的显示,因此通过 Import 或脚本访问它是值得的。

我会考虑的其他一些事情:

数据需要保持多长时间的最新状态?导入范围很慢,并且可能会使您创建的仪表板变得迟缓,也许在 Google Apps 脚本中进行聚合的计划导入是一个可行的选择。

此时,您甚至可能想要考虑使用 BigQuery 进行数据存储(和聚合),无论您是从该项目中的另一个电子表格中提取数据,还是从超过 200 万个元素时不会遇到任何问题的数据库中提取数据将是未来的证明。

或者,您可以使用 fusion tables* 作为基于驱动器的存储,尽管我认为您无法在其上运行复杂的 SQL 查询。


*:您可能需要在云端硬盘中通过右键单击 > 更多 > 连接更多应用来启用它们

【讨论】:

不知道 Bigquery 现在(显然)与工作表的集成非常简单。不愿意使用它,因为一旦我不确定是否有人可以使用该设置管理事物,但他们可以管理一些基于工作表的系统......但请记住这一点。融合表也是一个有趣的想法。看看我是否可以为我的用例很好地查询它们......总体来说有点令人鼓舞......

以上是关于谷歌电子表格中最大的实用数据集?的主要内容,如果未能解决你的问题,请参考以下文章

用于 50000 及以上数据集的 ui 网格等电子表格

如何从谷歌电子表格中动态变化的单元格中保存最小值和最大值?

是否可以使用谷歌电子表格中的数据“预填”谷歌表单?

来自谷歌电子表格的 JSON 数据

使用谷歌应用脚​​本从电子表格数据中检索行

在谷歌电子表格中导入数据和颜色