Hadoop - 将来自 HTTP 上传 (PUT) 的数据直接流式传输到 HDFS

Posted

技术标签:

【中文标题】Hadoop - 将来自 HTTP 上传 (PUT) 的数据直接流式传输到 HDFS【英文标题】:Hadoop - streaming data from HTTP upload (PUT) into HDFS directly 【发布时间】:2013-07-25 19:29:34 【问题描述】:

我有以下应用部署

Web 前端通过 HTTP/FTP 从客户端获取数据 hadoop 集群

我需要将客户端的数据存储在 HDFS 上。最好的方法是什么?是否可以直接将数据流式传输到 HDFS,而无需消耗本地驱动器上来自客户端的所有数据,然后将其放入 HDFS?

【问题讨论】:

【参考方案1】:

我现在能想到的可行方案是:

HttpFS WebHDFS FTP client over HDFS HDFS over WebDAV

根据您的方便和轻松,选择“最好的”完全取决于您。

【讨论】:

【参考方案2】:

就个人而言,如果您想要低延迟访问 HDFS,最好的选择是 HBase。您可以非常轻松地放置和获取值,因为它只是一个键值存储。我们在我们的应用程序中使用了同样的东西,而且效果非常好。

【讨论】:

以上是关于Hadoop - 将来自 HTTP 上传 (PUT) 的数据直接流式传输到 HDFS的主要内容,如果未能解决你的问题,请参考以下文章

在hadoop中使用put上传文件失败

一起学Hadoop——文件的上传分发与打包

使用 HTTP PUT 将文件上传到 Amazon S3

使用 HTTP PUT 将文件上传到 Sharepoint (WSS 3.0) 文档库

hadoop上传文件失败报错(put: Cannot create file/eclipse.desktop._COPYING_. Name node is in safe mode.)

hadoop中常用的命令