AWS Glue - 从 sql server 表中读取并作为自定义 CSV 文件写入 S3

Posted

技术标签:

【中文标题】AWS Glue - 从 sql server 表中读取并作为自定义 CSV 文件写入 S3【英文标题】:AWS Glue - read from a sql server table and write to S3 as a custom CSV file 【发布时间】:2018-09-14 17:50:10 【问题描述】:

我从一月份开始从事 Glue 工作,并且使用 AWS Glue / Databricks / EMR 等在多个 POC、生产数据湖中工作。我使用 AWS Glue 从 S3 读取数据并在加载到 Redshift、Aurora 之前执行 ETL,等等

我现在需要从 SQL SERVER 上的源表中读取数据,并获取数据,写入自定义(用户定义)CSV 文件中的 S3 存储桶,例如employee.csv。

我正在寻找一些指示,请这样做。

谢谢

【问题讨论】:

我的回答有帮助吗? 【参考方案1】:

您可以使用指定connectionType=sqlserver 的JDBC 进行连接,以获得连接到SQL SERVER 的动态框架。在这里查看GlueContext docs

dynF = glueContext.getSource(connection_type="sqlserver", url = ..., dbtable=..., user=..., password=)

【讨论】:

【参考方案2】:

此任务适合 AWS DMS(数据迁移服务)用例。 DMS 旨在将数据从一个数据存储迁移到另一个数据存储或使它们保持同步。它当然可以保持同步以及将您的源(即 MSSQL)转换为您的目标(即 S3)。

在您的案例中,有一个不可忽略的约束。仅当您的许可证是 Enterprise 或 Developer Edition 并且适用于 2016-2019 版本时,与 MSSQL 源的持续同步才有效。

【讨论】:

以上是关于AWS Glue - 从 sql server 表中读取并作为自定义 CSV 文件写入 S3的主要内容,如果未能解决你的问题,请参考以下文章

从 EMR 迁移到 AWS Glue 后在 Spark SQL 中找不到表

AWS Glue:SQL Server 多个分区数据库 ETL 到 Redshift

如何编写 AWS Glue 脚本以将新数据插入 Redshift 表

AWS Glue 错误 |无法使用 spark 从开发人员端点读取 Glue 表

从 AWS Glue 表到 RedShift Spectrum 外部表的日期字段转换

aws glue / pyspark - 如何使用 Glue 以编程方式创建 Athena 表