这个场景是大数据项目吗?
Posted
技术标签:
【中文标题】这个场景是大数据项目吗?【英文标题】:Is this scenario a big data project? 【发布时间】:2016-07-15 18:10:00 【问题描述】:我参与了一个分两个阶段的项目,我想知道这是否是一个大数据项目(我是这个领域的新手)
在第一阶段我有这种情况:
我必须收集大量数据 我需要保存它们 我需要构建一个向用户显示数据的 Web 应用程序在第二阶段,我需要分析存储的数据并构建报告并对它们进行一些分析
关于数据量的一些例子;一天之内我可能需要收集和存储大约 86.400.000 条记录
现在我正在考虑这种架构:
收集数据一些异步技术,如 Active MQ 和 MQTT 协议 存储数据,我正在考虑使用 NoSQL DB(mongo、Hbase 或其他)现在这将解决我的第一阶段问题
但是第二阶段呢?
我在考虑一些大数据软件(如 hadoop 或 spark)和一些机器学习软件;所以我可以从数据库中检索数据,分析它们并以更好的方式构建或存储,以便构建良好的报告并进行一些特定的分析
我想知道这是否是最好的方法
您将如何解决这种情况?我的方法对吗?
谢谢
安杰洛
【问题讨论】:
***.com/questions/35560823/… 【参考方案1】:正如 siddhartha 所回答的,您的项目是否可以标记为大数据项目,取决于项目的上下文和业务领域/案例。
谈到技术堆栈,您提到的每项技术都有特定的用途。例如,如果您有结构化数据,则可以使用任何具有查询支持的新年龄库。 NoSQL 数据库有不同的风格(列、基于文档、键值等),因此技术选择再次取决于您拥有的数据类型和用例。我建议您在进行最终通话之前进行一些 POC 和技术分析。
【讨论】:
【参考方案2】:大数据的定义因用户而异。对于 Google 来说 100 TB 可能是一个小数据,但对我来说这是大数据,因为可用硬件商品的差异。 Ex -> Google 可以拥有 50000 个节点的集群,每个节点都有 64 GB 的 RAM,用于分析 100 Tb 的数据,所以对他们来说这不是大数据。但我不能拥有 50000 个节点的集群,所以对我来说它是大数据。
如果有可用的商品硬件,您的情况也是如此,您可以继续使用 hadoop。由于您没有提到您每天生成的文件大小,我无法确定您的情况。但是hadoop始终是处理数据的好选择,因为像spark这样的新项目可以帮助您在更短的时间内处理数据,而且它还为您提供实时分析的功能。所以根据我的说法,如果你可以使用 spark 或 hadoop 会更好,因为这样你就可以使用你的数据了。此外,由于您想使用 nosql 数据库,您可以使用 hadoop 提供的 hbase 来存储您的数据。
希望这能回答你的问题。
【讨论】:
嗯,这正是我的想法......但我想知道:activeMQ+MQTT 是否足以收集大量数据(每天 8600 万条记录意味着每秒大约 1000 条记录)?我正在考虑使用 HBase+Hadoop+Hive+mohout(与轮回),我认为我的方式是正确的......以上是关于这个场景是大数据项目吗?的主要内容,如果未能解决你的问题,请参考以下文章