网络应用中的大数据分析

Posted

技术标签:

【中文标题】网络应用中的大数据分析【英文标题】:Big data analysis in web applications 【发布时间】:2015-07-20 15:13:38 【问题描述】:

假设我有非常大的时间序列数据。例如,我将这些非常大的数据存储在像 Google BigTable 这样的存储设备中。我可以非常快速地从存储中查询和获取数据。所以我可以处理存储问题。到目前为止,该过程非常有效。

现在我有一个网络应用程序。我想分析存储在 BigTable 中的大时间序列并可视化结果。我想对该时间序列进行统计评估,其中包含超过一百万个点。所以我有一个存储时间序列的解决方案,我可以从存储中获取正确的时间序列,但是当我将它们从存储中取出时,我不知道如何处理时间序列。

我必须使用哪些服务器端工具来处理大数据?有哪些方法可以做到这一点?后端的并行化和 Web 前端的聚合可视化?当我不能以同样有效的方式使用大数据时,高效地存储数据是没有用的。

【问题讨论】:

【参考方案1】:

除非您想重新发明它,否则请使用 google bigquery 而不是 bigtable。 https://cloud.google.com/bigquery/what-is-bigquery

【讨论】:

好的,我也可以改用 bigquery。但是我还是有问题,数据出存储后应该如何处理? 您不会将其从原始存储中取出。它是一个数据库。请参阅文档。 假设我有十亿个存储条目。我想建立一个超过一百万个条目的简单平均计算。我怎样才能做到这一点?我认为我必须拿出百万个条目并进行统计分析? 好的,我明白了。因此,我可以构建一个普通的 Web 应用程序,并将数据从应用程序存储到数据存储区。在此之后,我可以将数据从数据存储加载到 bigquery。然后我可以运行我的分析并可视化结果。如果我有实时传感器值,是否应该将这些值直接流式传输到 bigquery? bigquery 可以用作 web 应用程序的主存储吗? 是的,它可以是主存储。但是我没有比较数据存储与 bigquery 的 SLA 或定价。【参考方案2】:

作为 BigTable/BigQuery 的替代品,您可以尝试 ATSD,它已经满足您的需求。它是一个基于 HBase 的时间序列数据库。它带有内置的可视化功能,您可以直接在小部件中聚合任意数量的数据或使用 API 检索聚合数据。如果您要存储传感器数据,这里有一个很好的示例用例:https://axibase.com/environmental-monitoring-using-big-data/

【讨论】:

【参考方案3】:

对于时间序列数据的分析和可视化,有一个很好的解决方案,叫做“Metatron Discovery”。它为您遇到的问题提供了大部分答案。看看吧!

【讨论】:

以上是关于网络应用中的大数据分析的主要内容,如果未能解决你的问题,请参考以下文章

慢速首次读取领域中的大数据

BigDecimal类 大数据中的大小数 BigIiteger类 大数据中的大整数

大数据中的Spark指的是啥?

基于网络爬虫技术的大数据审计方法研究

记一次删除Git记录中的大文件的过程

在打开的大文件中复制数据