关于迁移到大数据的疑虑

Posted

技术标签:

【中文标题】关于迁移到大数据的疑虑【英文标题】:doubts regarding migration to big data 【发布时间】:2014-11-25 19:11:04 【问题描述】:

我对 hadoop 有一些疑问

    在 cloudera 发布的一个视频中,一位讲师告诉我们,在 hadoop 中有 HDFS。每个文件都将存储为一组卡盘或块。每个块将在不同的机器上复制 3 次,以最大限度地减少故障点。每个映射器将处理一个 hdfs 块。

根据这些逻辑,我认为如果我的服务器有大约 100 peta 字节的日志,这些日志不像 hdfs 那样存储在传统文件系统中。

主要疑问 1. 现在,如果我想使用 mapreduce 技术有效地分析这些庞大的数据,那么我是否必须将数据传输到运行 hdfs 并且存储量是旧服务器三倍的新服务器中。

    在另外一个由cloudera发布的视频中..教练明确提到我们不需要将传统系统迁移到新系统,我们可以在此基础上使用hadoop和map reduce。这与第一点中提到的说法几乎没有矛盾。

主要疑问2:让我们假设第2点陈述是正确的。现在这怎么可能。我的意思是我们如何在每台机器上没有块或名称节点 ..deamon 复制的传统文件系统上应用 hadoop 和 map reduce。

我的主要任务是促进对当前未存储在 hdfs 中的大量日志的快速分析。为此,我是否需要新服务器。

P.S:我需要一些好的教程或书籍或一些文章,它们可以让我深入了解大数据,以便我可以开始研究它。 因此,欢迎提出建议。

【问题讨论】:

【参考方案1】:

Hadoop 只是用于在服务器集群上运行MapReduce 风格工作负载(用于“大数据”或“分析”)的基础架构。

您可以使用 HDFS 跨节点共享数据,然后使用 Hadoop 的内置工作负载管理将工作分配到存储数据的节点。这有时被称为“功能交付”。

但也有可能使用 HDFS。您可以使用另一种网络文件共享/分发机制。各种供应商/平台支持 FTP(文件副本)、S3(从 Amazon Web Services 云访问)和各种其他集群/分布式文件系统。其中一些将数据移动到正在完成工作负载的系统(“数据传送”)。

哪种存储策略合适、高效和高性能是一个大问题,很大程度上取决于您的基础架构和 MapReduce 应用的数据访问模式。然而,一般来说,分析工作需要大量资源,因此只有小型分析应用程序往往会在执行其他工作的服务器(“原始系统”)上运行。因此,处理“大数据”确实倾向于建议新的服务器——如果不是你购买的,那些你从 AWS、RackSpace 等云服务临时租用的服务器——以及来自生产中捕获的数据副本/克隆的数据流( “辅助存储”)而不是仍然驻留在“主存储”上的数据。

如果您刚开始使用小型或适中的应用程序,您或许可以直接从现有系统就地访问数据。但是,如果您有 100 PB 的日志,您将希望在专门用于该任务的系统上处理这些日志。

【讨论】:

以上是关于关于迁移到大数据的疑虑的主要内容,如果未能解决你的问题,请参考以下文章

如何从 MySQL 服务器迁移到大数据 Hadoop

牛津王宁:大数据和量化金融—从机器交易 高频交易到大数据交易

多条件过滤引发的那些小小疑虑

ClickHouse 大数据量的迁移方式

资源分享数据库到数据仓库再到大数据1

将原始“事件”数据从 Firebase 导出到大查询?