AWS Glue - 在插入之前截断目标 postgres 表

Posted

技术标签:

【中文标题】AWS Glue - 在插入之前截断目标 postgres 表【英文标题】:AWS Glue - Truncate destination postgres table prior to insert 【发布时间】:2018-04-15 07:39:17 【问题描述】:

我正在尝试在插入之前截断 postgres 目标表,并且通常尝试利用已在 GLUE 中创建的连接来触发外部函数。

有人能做到吗?

【问题讨论】:

Overwrite mysql tables with AWS Glue的可能重复 你做到了吗?我也想做这样的事情。 【参考方案1】:

我已经尝试过DROP/ TRUNCATE 方案,但无法使用已在 Glue 中创建的连接,而是使用纯 Python PostgreSQL 驱动程序pg8000。

    下载pg8000 from pypi的tar 在根文件夹中创建一个空的__init__.py 压缩内容并上传到 S3 引用作业Python lib path中的zip文件 将数据库连接详细信息设置为作业参数(确保在所有键名前加上--)。勾选“服务器端加密”框。

然后你可以简单地创建一个连接并执行 SQL。

import sys
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job

import pg8000

args = getResolvedOptions(sys.argv, [
    'JOB_NAME',
    'PW',
    'HOST',
    'USER',
    'DB'
])
# ...
# Create Spark & Glue context

job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# ...
config_port = 5432
conn = pg8000.connect(
    database=args['DB'], 
    user=args['USER'], 
    password=args['PW'],
    host=args['HOST'],
    port=config_port
)
query = "TRUNCATE TABLE 0;".format(".".join([schema, table]))
cur = conn.cursor()
cur.execute(query)
conn.commit()
cur.close()
conn.close()

【讨论】:

实际上,我按照您提到的步骤进行了操作,但仍然收到“没有名为 pg8000 的模块”。你能帮我在哪里出错。 P.S 我从github.com/tlocke/pg8000得到了lib 我也遇到了同样的错误 - 没有名为 pg8000 的模块。你是怎么克服的?还有什么需要补充的吗? 虽然这很好,但是这能保证交易吗?假设连接后有数据帧写入语句,如果在将数据帧写入DB的过程中出现错误,表还会被截断吗? @thenaturalist pg8000 模块与胶水作业一起使用现在更简单了。转到“安全配置、脚本库和作业参数(可选)”,向下滚动到“作业参数”,然后输入 --additional-python-modules 作为键和 pg8000 作为值.. 就完成了:)跨度> 【参考方案2】:

在@thenaturalist 回复的步骤(4)之后,

sc.addPyFile("/home/glue/downloads/python/pg8000.zip")

import pg8000

在开发端点(zeppelin notebook)中为我工作

更多信息:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

【讨论】:

【参考方案3】:

为了澄清@thenaturalist 对 zip 的说明,因为我仍在为此苦苦挣扎


从pypi.org下载pg8000的tar.gz并解压。 压缩内容,使您具有以下结构

pg8000-1.15.3.zip
|
| -- pg8000 <dir>
    | -- __init__.py
    | -- _version.py <optional>
    | -- core.py

上传到s3,然后你应该可以做一个简单的import pg8000

注意:目前还需要scramp,因此请按照与上述相同的步骤来包含报废模块。但是你不需要导入它。

【讨论】:

以上是关于AWS Glue - 在插入之前截断目标 postgres 表的主要内容,如果未能解决你的问题,请参考以下文章

未执行 Aurora 目标的 AWS Glue Pre 和 Post 操作

有没有办法在通过 Glue 插入 Redshift 时简单地截断列?

AWS Glue to Redshift:是否可以替换,更新或删除数据?

如何在 ETL 处理之前检查 AWS Glue 架构?

在 AWS Glue-ETL 中向目标表添加新列

AWS Glue - getSink() 在glue_context.purge_s3_path 之后立即抛出“没有这样的文件或目录”