用于 Apache Hadoop 的 emr-dynamodb-connector

Posted 2023-04-18

技术标签:

【中文标题】用于 Apache Hadoop 的 emr-dynamodb-connector【英文标题】：emr-dynamodb-connector for Apache Hadoop 【发布时间】：2018-04-02 11:47:22 【问题描述】：

我有一个 EMR，并打算在 dynamo DB 上执行 CRUD 操作，作为我的 Reducer 的一部分。

请注意，我不使用 Hive 或 Spark，而是使用 Apache Hadoop。有没有关于如何从我的 EMR 连接到 Dynamo DB 的文档？

【问题讨论】：

【参考方案1】：

emr-dynamodb-connector 是开源库，包括 Hadoop 类，如 DynamoDBInputFormat、DefaultDynamoDBRecordReader，用于从具有读取速率控制的 DynamoDB 读取数据（使用并行扫描）和 DynamoDBOutputFormat DefaultDynamoDBRecordWriter 用于写入（使用 BatchWrites API）到 DynamoDB，并具有写入速率控制以避免限制。

我认为除了这个开源库的README 之外，没有更多的 AWS 文档。

所有 EMR 集群都应该有这个库的预构建包（emr-dynamodb-tools 除外），通常是@/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar，并包含在 EMR Hadoop 的类路径中。因此，您可以通过使用 Job 配置设置所需的配置（包括 DynamoDB config's），在您的 MR 应用程序上使用此 JAR 中的 Hadoop InputFormat 和 OutputFormat 实现

【讨论】：

以上是关于用于 Apache Hadoop 的 emr-dynamodb-connector的主要内容，如果未能解决你的问题，请参考以下文章

{Submarine} 在 Apache Hadoop 中运行深度学习框架

HDFS 配额（Quotas）指南 -- Apache Hadoop 2.9.0

Apache Hadoop

Hive 常用函数入门Apache Hadoop概述

初识Apache Hadoop

hadoop 没有用于方案的文件系统：文件