用于 Apache Hadoop 的 emr-dynamodb-connector

Posted

技术标签:

【中文标题】用于 Apache Hadoop 的 emr-dynamodb-connector【英文标题】:emr-dynamodb-connector for Apache Hadoop 【发布时间】:2018-04-02 11:47:22 【问题描述】:

我有一个 EMR,并打算在 dynamo DB 上执行 CRUD 操作,作为我的 Reducer 的一部分。

请注意,我不使用 Hive 或 Spark,而是使用 Apache Hadoop。有没有关于如何从我的 EMR 连接到 Dynamo DB 的文档?

【问题讨论】:

【参考方案1】:

emr-dynamodb-connector 是开源库,包括 Hadoop 类,如 DynamoDBInputFormatDefaultDynamoDBRecordReader,用于从具有读取速率控制的 DynamoDB 读取数据(使用并行扫描)和 DynamoDBOutputFormat DefaultDynamoDBRecordWriter 用于写入(使用 BatchWrites API)到 DynamoDB,并具有写入速率控制以避免限制。

我认为除了这个开源库的README 之外,没有更多的 AWS 文档。

所有 EMR 集群都应该有这个库的预构建包(emr-dynamodb-tools 除外),通常是@/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar,并包含在 EMR Hadoop 的类路径中。因此,您可以通过使用 Job 配置设置所需的配置(包括 DynamoDB config's),在您的 MR 应用程序上使用此 JAR 中的 Hadoop InputFormat 和 OutputFormat 实现

【讨论】:

以上是关于用于 Apache Hadoop 的 emr-dynamodb-connector的主要内容,如果未能解决你的问题,请参考以下文章

{Submarine} 在 Apache Hadoop 中运行深度学习框架

HDFS 配额(Quotas)指南 -- Apache Hadoop 2.9.0

Apache Hadoop

Hive 常用函数入门Apache Hadoop概述

初识Apache Hadoop

hadoop 没有用于方案的文件系统:文件