Pyspark 数据帧从一个存储桶中读取,并在同一作业中使用不同的 KMS 密钥写入另一个存储桶

Posted

技术标签:

【中文标题】Pyspark 数据帧从一个存储桶中读取,并在同一作业中使用不同的 KMS 密钥写入另一个存储桶【英文标题】:Pyspark dataframe read from one bucket and write to another bucket with different KMS keys in same job 【发布时间】:2021-04-14 06:41:18 【问题描述】:

在下面为我的用例找到更好的解决方案需要一点帮助。

我有包含输入数据的 S3 存储桶,它使用 KMS KEY 1

加密

所以我可以使用 "spark.hadoop.fs.s3.serverSideEncryption.kms.keyId" 将 KMS KEY 1 设置为我的 spark 会话

并且能够读取数据,

现在我想将数据写入另一个 S3 存储桶,但它使用 KMS KEY 2*

加密

所以我目前正在做的是,使用 Key1 创建 spark 会话并读取数据帧并将其转换为 Pandas 数据帧并终止 spark 会话并使用 KMS KEY2 在相同的 AWS 胶水作业中重新创建 spark 会话并转换在上一步中创建的 pandas 数据用于触发数据帧并写入输出 S3 存储桶。

但这种方法有时会导致数据类型问题。有没有更好的替代解决方案来处理这个用例?

提前致谢,非常感谢您的帮助。

【问题讨论】:

【参考方案1】:

您无需声明使用什么密钥来解密使用 S3-KMS 加密的数据;要使用的 keyID 作为属性附加到文件中。 AWS S3 读取加密设置,查看密钥 ID,将 KMS 加密的对称密钥发送到 AWS KMS,请求使用请求解密的用户/IAM 角色对其进行解密。如果用户/角色有正确的权限,S3 取回未加密的密钥,解密文件并返回。

要从使用 KMS-1 加密的存储桶中读取数据,您应该能够将密钥设置为 key2 值(或根本不加密),并且仍然可以取回数据

免责声明:我没有用 EMR s3 连接器测试过这个,只有 apache S3A 连接器,但由于 S3-KMS 在任何地方的工作方式都是一样的,我希望这能成立。使用客户端提供的密钥 S3-CSE 加密是另一回事。您确实需要正确配置客户端,这就是 S3A 支持按桶配置的原因。

【讨论】:

以上是关于Pyspark 数据帧从一个存储桶中读取,并在同一作业中使用不同的 KMS 密钥写入另一个存储桶的主要内容,如果未能解决你的问题,请参考以下文章

将数据帧从 pandas 转换为 pyspark 到 Foundry 的数据类型

在运行 AWS Glue ETL 作业并命名输出文件名时,有没有办法从 S3 存储桶中读取文件名。 pyspark 是不是提供了一种方法来做到这一点?

Pyspark 从 S3 存储桶读取 csv 文件:AnalysisException:路径不存在

AWS lambda 函数 python/pyspark

从 pyspark 访问 S3 存储桶中的文件

Cloud Function 将存储桶中的所有文件复制到同一个 GCS 存储桶内的文件夹中