将拼花地板转换为json以进行dynamodb导入

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将拼花地板转换为json以进行dynamodb导入相关的知识,希望对你有一定的参考价值。

我正在使用AWS Glue作业以拼花格式备份s3中的dynamodb表,以便能够在Athena中使用它。

如果我想使用这些实木复合地板格式的s3文件来还原dynamodb中的表,这就是我的想法-读取每个实木复合地板文件并将其转换为json,然后将json格式的数据插入dynamodb(在下面的行上使用pyspark)

# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)

使用-https://github.com/Alonreznik/dynamodb-json将普通json转换为预期的json发电机

这种方法听起来正确吗?此方法还有其他选择吗?

答案

您可以使用AWS Glue将Parquet格式直接转换为JSON,然后创建一个lambda函数,该函数在S3上触发并加载到DyanmoDB中]

https://medium.com/searce/convert-csv-json-files-to-apache-parquet-using-aws-glue-a760d177b45f

另一答案

您的方法会起作用,但是您可以直接写到DynamoDB。您只需在运行jar时导入几个pyspark。看看这个:https://github.com/audienceproject/spark-dynamodb

希望这会有所帮助。

以上是关于将拼花地板转换为json以进行dynamodb导入的主要内容,如果未能解决你的问题,请参考以下文章

您如何将 DynamoDB Map/List 类型转换为通过 AWS Pipeline 到 Redshift?

从 Python 编写嵌套拼花格式

将 Tweepy 状态对象转换为 JSON

转换为镶木地板的 csv 文件将“e0”添加到值的末尾

将 JSON 数据从 dynamoDB 复制到 redshift

Python Lambda 函数解析 DynamoDB 的 JSON 格式