用于 Apache Hadoop 的 emr-dynamodb-connector
Posted
技术标签:
【中文标题】用于 Apache Hadoop 的 emr-dynamodb-connector【英文标题】:emr-dynamodb-connector for Apache Hadoop 【发布时间】:2018-04-02 11:47:22 【问题描述】:我有一个 EMR,并打算在 dynamo DB 上执行 CRUD 操作,作为我的 Reducer 的一部分。
请注意,我不使用 Hive 或 Spark,而是使用 Apache Hadoop。有没有关于如何从我的 EMR 连接到 Dynamo DB 的文档?
【问题讨论】:
【参考方案1】:emr-dynamodb-connector 是开源库,包括 Hadoop 类,如 DynamoDBInputFormat
、DefaultDynamoDBRecordReader
,用于从具有读取速率控制的 DynamoDB 读取数据(使用并行扫描)和
DynamoDBOutputFormat
DefaultDynamoDBRecordWriter
用于写入(使用 BatchWrites API)到 DynamoDB,并具有写入速率控制以避免限制。
我认为除了这个开源库的README 之外,没有更多的 AWS 文档。
所有 EMR 集群都应该有这个库的预构建包(emr-dynamodb-tools 除外),通常是@/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar
,并包含在 EMR Hadoop 的类路径中。因此,您可以通过使用 Job 配置设置所需的配置(包括 DynamoDB config's),在您的 MR 应用程序上使用此 JAR 中的 Hadoop InputFormat 和 OutputFormat 实现
【讨论】:
以上是关于用于 Apache Hadoop 的 emr-dynamodb-connector的主要内容,如果未能解决你的问题,请参考以下文章
{Submarine} 在 Apache Hadoop 中运行深度学习框架