如何在 Kafka 中进行转换(PostgreSQL-> Red shift )
Posted
技术标签:
【中文标题】如何在 Kafka 中进行转换(PostgreSQL-> Red shift )【英文标题】:How to do the transformations in Kafka (PostgreSQL-> Red shift ) 【发布时间】:2018-02-19 15:03:02 【问题描述】:我是 Kafka/AWS 的新手。我需要将来自多个来源的数据加载到 DW(Redshift) 中。
我的一个来源是 PostgreSQL。我找到了good article 使用 Kafka 将数据同步到 Redshift。
这篇文章比较好,可以在PostgreSQL和redshift之间同步数据。但我的要求是在加载到redshift之前先转换数据。
有人可以帮助我如何转换 Kafka (PostgreSQL->Redhsift) 中的数据吗?
提前致谢 周杰伦
【问题讨论】:
【参考方案1】:这是我刚刚发表的一篇关于这种模式的文章,描述了如何使用 Apache Kafka 的 Connect API 和 KSQL(基于 Kafka 的 Streams API 构建)进行流式 ETL:https://www.confluent.io/ksql-in-action-real-time-streaming-etl-from-oracle-transactional-data
您应该查看 Debezium 以将事件从 Postgres 流式传输到 Kafka。
【讨论】:
感谢您的回复。我会尝试从您的链接中学习。顺便说一下,我的另一个来源是 AwsDynamoDB。上述相同的过程是否也适用? 查看list of connectors for Kafka Connect -- 好像有一个用于 DynamoDB 的社区连接器,是的。【参考方案2】:为此,您可以使用任何流媒体应用程序,无论是storm/spark/kafka 流媒体。这些应用程序将使用来自不同来源的数据,并且可以即时完成数据转换。这三者都有各自的优势和复杂性。
【讨论】:
以上是关于如何在 Kafka 中进行转换(PostgreSQL-> Red shift )的主要内容,如果未能解决你的问题,请参考以下文章
如何设置 Kafka 连接器以在 Debezium 中使用自定义转换?
kafka connect - 使用 hdfs sink 连接器进行 ExtractTopic 转换抛出 NullPointerException