手动设置 AWS Glue ETL 书签

Posted

技术标签:

【中文标题】手动设置 AWS Glue ETL 书签【英文标题】:Manually setting AWS Glue ETL Bookmark 【发布时间】:2021-08-13 06:04:07 【问题描述】:

我的项目正在过渡到一个新的 AWS 账户,我们正在尝试找到一种方法来保存我们的 AWS Glue ETL 书签。我们有大量已处理的数据要复制到新帐户,因此希望避免重新处理。

据我了解,Glue 书签只是后端的时间戳,理想情况下,我们可以获取旧书签,然后手动为新 AWS 账户中的匹配作业设置书签。

看起来我可以使用以下方法通过 AWS CLI 获取现有书签:

get-job-bookmark --job-name <value>

(Source)

但是,我一直找不到任何可能的方法来设置新帐户中的书签。

就解决方法而言,我最好的选择似乎是:

    为我们的 Glue 爬虫上的所有 S3 数据源添加排除模式,但这将不再允许我们通过 Glue 目录(我们目前用于跟踪记录和归档)跟踪任何现有的未处理数据算)。这看起来是迄今为止最好的选择...... 尝试在抓取新帐户中的旧(复制)数据之前运行 Glue ETL 作业,将书签设置为超过我们复制的 S3 对象的创建时间。然后,一旦我们爬取复制的数据,ETL 作业将认为它们比当前书签时间更早,并且不会在下一次运行时处理它们。但是,这个 hack 似乎不起作用,因为我在测试时最终处理了所有数据。

在这里真的很茫然,AWS Glue 论坛是一座鬼城,过去没有提供任何帮助。

【问题讨论】:

【参考方案1】:

我无法使用上述问题中的方法手动设置书签或获取书签以手动进度和跳过数据。

但是,我能够让 Glue ETL 作业跳过数据并使用以下步骤处理其书签:

    确保禁用任何 Glue ETL 计划

    添加您想跳到 S3 的文件

    抓取 S3 数据

    注释掉 Glue ETL 作业的 Spark 代码的处理步骤。我只是在初始动态框架创建之后注释掉了所有的 dynamic_frame 步骤,直到 job.commit()

    sc = SparkContext()
    glueContext = GlueContext(sc)
    spark = glueContext.spark_session
    job = Job(glueContext)
    job.init(args['JOB_NAME'], args)
    
    # Create dynamic frame from raw glue table
    datasource0 = 
    glueContext.create_dynamic_frame.from_catalog(database=GLUE_DATABASE_NAME, 
    table_name=JOB_TABLE, transformation_ctx="datasource0")
    
    # ~~ COMMENT OUT ADDITIONAL STEPS ~~ #
    
    job.commit()
    

    像往常一样在启用书签的情况下运行胶水 etl 作业

    将 Glue ETL Spark 代码恢复正常

现在,Glue ETL 作业的书签已完成,并且将跳过在第 5 步中运行的该作业上处理的任何数据。下次将文件添加到 S3 并爬取时,会被 Glue ETL 作业正常处理。

如果您知道您将获得一些您不想处理的数据,或者如果您正在转换到新的 AWS 账户并像我一样复制所有旧数据,这可能会很有用。如果有一种方法可以在 Glue 中手动设置书签时间,那就太好了,这样就没有必要了。

【讨论】:

以上是关于手动设置 AWS Glue ETL 书签的主要内容,如果未能解决你的问题,请参考以下文章

如何在 ETL 处理之前检查 AWS Glue 架构?

AWS Glue ETL 作业中的 Boto3 Glue

从 AWS Redshift 到 S3 的 AWS Glue ETL 作业失败

AWS Glue ETL作业缺少对爬网程序可见的字段

在 AWS Glue-ETL 中向目标表添加新列

AWS Glue:SQL Server 多个分区数据库 ETL 到 Redshift