AWS Glue 检查文件内容的正确性
Posted
技术标签:
【中文标题】AWS Glue 检查文件内容的正确性【英文标题】:AWS Glue check file contents correctness 【发布时间】:2020-03-21 15:09:35 【问题描述】:我在 AWS 中有一个项目,用于将 S3 中的一些文件中的数据插入 Redshift。关键是必须每天安排 ETL 以在 S3 中查找新文件,然后检查这些文件是否正确。但是,这必须使用自定义代码来完成,因为文件可以具有不同的格式,具体取决于它们的类型、提供者等。 我看到 AWS Glue 允许计划、抓取和执行 ETL。但是,我不知道如何为 ETL 创建自己的代码并解析文件以检查正确性,然后再执行从 S3 到 Redshift 的复制指令。你知道这是否可以做到以及如何做到吗?
另一个问题是,如果正确性没问题,系统应该通过一些 API 将数据从 S3 上传到 Web。但如果不是,则应将文件留在 ftp 电子邮件中。再说一遍,您知道 AWS Glue 是否也可以做到这一点以及如何做到这一点?
非常感谢!
【问题讨论】:
【参考方案1】:您可以编写粘合/火花代码,将其上传到 s3 并创建引用此脚本/库的粘合作业。你想用python写的任何东西都可以用胶水完成。它只是 spark 的一个包装器,它又使用 python....
【讨论】:
我已将 Zeppelin 笔记本连接到 AWS Glue 端点。我可以运行 pyspark 代码和粘合库代码。但是,我需要使用一些 python 库。仅通过使用“import paramiko”导入 paramiko 库,我收到以下错误:无法执行第 5 行:import paramiko Traceback(最近一次调用最后一次):文件“/tmp/zeppelin_pyspark-895507894114377331.py”,第 380 行,在 exec(code, _zcUserQueryNameSpace) File "以上是关于AWS Glue 检查文件内容的正确性的主要内容,如果未能解决你的问题,请参考以下文章