如何为“大数据”分析项目设置架构?

Posted

技术标签:

【中文标题】如何为“大数据”分析项目设置架构?【英文标题】:How do I set up the architecture for a "big data" analysis project? 【发布时间】:2015-09-23 17:40:19 【问题描述】:

我和我的一个朋友正在大四,很快就会开始一个大四项目。我们有想法为它做一个数据分析和数据可视化项目。我们的项目涉及读取每 2 分钟更新一次的 CSV 文件,解析该数据,然后将其存储在数据库中。一旦存储了这些数据,我们希望对其进行一些分析并提供一个 API,通过它我们可以访问该数据以以某种方式可视化。我们的最终目标是构建一个 android 应用程序,以用户友好的格式显示来自 CSV 的一些原始数据和分析。我与另一位 CS Major 进行了交谈,他解释说我需要几台不同的服务器来完成此任务:一台用于存储,另一台用于分析,另一台用于某种类型的队列,以确保事情不会变得混乱。做抓取和分析。问题是,我真的不知道从哪里开始。我之前使用 SQL 数据库和 php 前端做过一些工作,但没有使用多个服务器。我听说过与 Hadoop 等大数据项目一起使用的工具,但我不确定它适用于何处。如果有人可以向我指出某种资源来解释或解释自己,我将如何开始构建这样的项目,太棒了!

【问题讨论】:

【参考方案1】:

由于您在这些方面没有太多经验,因此您可能会想看看像 Cloudera 这样的项目。特别是他们的resources 页面有一组不错的视频和文章。

另一个可靠信息来源(我个人使用)是单击 Stack Overflow tag 并选择 votes 选项。许多关于big data 主题的好问题已经存在

【讨论】:

以上是关于如何为“大数据”分析项目设置架构?的主要内容,如果未能解决你的问题,请参考以下文章

如何为大数据处理构建高性能Hadoop集群

如何为传感器网络设计 HBase 架构?

6何为伯克利数据分析栈BDASMP3

大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型

如何为 cassandra 设置读取请求超时

如何筹建公司的大数据分析系统