从 DynamoDB 流复制到 Kinesis Data Streams 时如何维护顺序并避免重复记录?

Posted

技术标签:

【中文标题】从 DynamoDB 流复制到 Kinesis Data Streams 时如何维护顺序并避免重复记录?【英文标题】:How to maintain order and avoid duplicate records when copying from DynamoDB streams to KinesisData Streams? 【发布时间】:2020-01-03 19:43:48 【问题描述】:

我目前有一个用例将数据从 DDB Streams 复制到 Kinesis Data Streams(只是为了增加数据保留期)。使用 DDB Streams,它的保留时间仅为 24 小时,而使用 Kinesis Data Streams 的时间最长为 7 天。

所以,我正在考虑使用 lambda 将项目从 DDB Streams 复制到 Kinesis Data Streams,但我不确定在进行复制时是否会出现排序/重复记录的情况,因为我是猜测“消费者”故障(即)Lambda 故障可能导致流记录无序传送到 DynamoDB,并且 Kinesis Data Streams 中可能存在重复记录?是否有 AWS 客户构建的解决方案来处理此问题或任何解决方法?

另外,我选择 Kinesis 数据流/DDB 流的原因是因为我要让 lambda 从流中工作,并且我希望每个分片触发 lambda。

【问题讨论】:

【参考方案1】:

由于您有一个生产者,即 dynamodb 流,您可以做的是拥有一个 lambda 函数,该函数使用该流并将其插入 FIFO SQS 队列,然后您可以按照以下帖子对事件进行重复数据删除:

https://dev.to/napicella/deduplicating-messages-exactly-once-processing-4o2

顺便说一句,您可以将 SQS 保留期设置为 14 天,因此如果您不是在寻找实时解决方案,您可以使用它来代替 kinesis

一个示例用例 https://fernandomc.com/posts/aws-first-in-first-out-queues/

【讨论】:

不错,不错!但 Kinesis Data Streams 的问题在于,我可以从每个分片触发多个 lambda,并且我可以处理该数量的并发运行的 lambda。但是对于 SQS,我认为 lambda 触发器不会基于分片。这就是我对 KinesisDataStreams 和 DDB Streams 的限制。如果我没有那个约束,你的方法对我有用。 (将使用此约束更新问题)!

以上是关于从 DynamoDB 流复制到 Kinesis Data Streams 时如何维护顺序并避免重复记录?的主要内容,如果未能解决你的问题,请参考以下文章

Kinesis Stream 和 DynamoDB 流之间的区别

AWS Typescript CDK,尝试将 kinesis 流作为来源添加到 firehose

如何扇出 AWS 运动流?

解释 Kinesis 分片迭代器 - AWS Java 开发工具包

AWS CDK 中的哪个类可以选择为 Kinesis 传输流配置动态分区

如何通过 Kinesis 将数据从 Lambda (Python) 发送到 Redshift