实时或近实时分析应用程序设计注意事项

Posted

技术标签:

【中文标题】实时或近实时分析应用程序设计注意事项【英文标题】:Real-time or Near real-time analytics application design considerations 【发布时间】:2012-11-18 11:19:57 【问题描述】:

我正在设计和实施一个(近乎)实时的网络分析引擎。这类似于Google Analytics 和ChartBeat。预计每天有近 1.5 亿个请求。我们有 5 到 8 台机器,每台机器配备 2.5GHz(8 核)CPU 和 16 GB RAM。

我正在寻找满足此要求的水平可扩展解决方案。目前,我正在为此目的分析 mongo-hadoop 组合。从我到现在的理解是,很难将所有数据保存在一个地方(一台机器)进行分析。因此,Hadoop 作为数据处理器和 MongoDB 作为数据存储在我看来是一个很好的组合。

这种应用程序是否有标准或(我应该说)经过验证的架构?我应该考虑哪些设计因素? mongo-hadoop 组合对某人有用吗?

【问题讨论】:

Hadoop 和实时?不,没听说过。 【参考方案1】:

我假设你已经读过这篇文章了?

http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start

关于分片配置的更多细节和工作示例在这里 - http://www.slideshare.net/spf13/mongodb-and-hadoop

【讨论】:

是的,我已阅读文档。但这并没有提到适配器是否也适用于分片配置。我正在寻找比简短示例更多的细节。 是的,它确实适用于分片配置。这里有很好的演示示例 - slideshare.net/spf13/mongodb-and-hadoop

以上是关于实时或近实时分析应用程序设计注意事项的主要内容,如果未能解决你的问题,请参考以下文章

HADOOP 中的实时交互式查询

《实时控制软件设计》第一周作业 欧梓峰 U201317662

一起架构-某实时分析项目云原生 serverless 架构的设计思路和poc代码实现

一起架构-某实时分析项目云原生 serverless 架构的设计思路和poc代码实现

基于实时操作系统的无人机飞行控制系统设计综述

《实时控制软件设计》第一周作业