将拼花地板转换为json以进行dynamodb导入
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将拼花地板转换为json以进行dynamodb导入相关的知识,希望对你有一定的参考价值。
我正在使用AWS Glue作业以拼花格式备份s3中的dynamodb表,以便能够在Athena中使用它。
如果我想使用这些实木复合地板格式的s3文件来还原dynamodb中的表,这就是我的想法-读取每个实木复合地板文件并将其转换为json,然后将json格式的数据插入dynamodb(在下面的行上使用pyspark)
# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)
使用-https://github.com/Alonreznik/dynamodb-json将普通json转换为预期的json发电机
这种方法听起来正确吗?此方法还有其他选择吗?
答案
您可以使用AWS Glue将Parquet格式直接转换为JSON,然后创建一个lambda函数,该函数在S3上触发并加载到DyanmoDB中]
https://medium.com/searce/convert-csv-json-files-to-apache-parquet-using-aws-glue-a760d177b45f
另一答案
您的方法会起作用,但是您可以直接写到DynamoDB。您只需在运行jar
时导入几个pyspark
。看看这个:https://github.com/audienceproject/spark-dynamodb
希望这会有所帮助。
以上是关于将拼花地板转换为json以进行dynamodb导入的主要内容,如果未能解决你的问题,请参考以下文章
您如何将 DynamoDB Map/List 类型转换为通过 AWS Pipeline 到 Redshift?