来自 Spark / Dataframes 的 AWS SSE-KMS 加密

Posted

技术标签:

【中文标题】来自 Spark / Dataframes 的 AWS SSE-KMS 加密【英文标题】:AWS SSE-KMS Encryption from Spark / Dataframes 【发布时间】:2017-01-26 10:15:14 【问题描述】:

我已配置启用加密的 EMR 集群(emrfs-site.xml 中的属性) 我正在使用数据框 savemode.append 写入 S3n://my-bucket/path/ 保存在 s3 中。

但我看不到对象得到 AWS KMS 加密。 但是,当我从 EMR 的配置单元中进行简单插入时,我能够看到对象得到 aws kms 加密。

如何使用 sse kms 加密 S3 中数据帧中的文件?

【问题讨论】:

【参考方案1】:

问题是我们使用 s3a 将文件从 spark 程序保存到 EMR。 AWS 官方不支持在 EMR 上使用 s3a。虽然我们能够在 S3 中保存数据,但它并没有加密数据。我尝试使用 s3:// 和 s3n:// 加密适用于两者。

【讨论】:

你是如何指定加密设置的? 如果您使用的是 EMR,则使用 KMS 密钥创建一个安全配置配置文件,并在创建 EMR 时附加该配置文件,这样您的 EMR 将启用 KMS/加密。

以上是关于来自 Spark / Dataframes 的 AWS SSE-KMS 加密的主要内容,如果未能解决你的问题,请参考以下文章

Spark 结合了 DataFrames 和 GraphX

大数据(spark sql 和 spark dataframes 连接)

Spark SQL 教程翻译Datasets and DataFrames 概述

python Spark Dataframes的备忘单(使用Python)

使用 Dataframes 的 Spark Overlap 算法

Spark PairRDDs 和 DataFrames 是不是被索引?