我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3
Posted
技术标签:
【中文标题】我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3【英文标题】:I have .dat file in s3. I need to read the file through spark and do some filters and load into the S3 again 【发布时间】:2019-04-13 00:53:43 【问题描述】:我有一个 .dat 文件,它在 S3 位置有大约 50 列数据,需要通过 spark 读取并对 3 列进行一些过滤,然后再次将数据加载到 s3 中
【问题讨论】:
【参考方案1】:您的答案在这篇文章中得到解决: Read & Write Parquet Files from and to S3
To access data stored in Amazon S3 from Spark applications, you use Hadoop file APIs (SparkContext.hadoopFile, JavaHadoopRDD.saveAsHadoopFile, SparkContext.newAPIHadoopRDD, and JavaHadoopRDD.saveAsNewAPIHadoopFile) for reading and writing RDDs, providing URLs of the form s3a://bucket_name/path/to/file. You can read and write Spark SQL DataFrames using the Data Source API.
另一个很好的 Cloudera 资源,向您展示如何配置您的应用程序: Access data stored in S3
【讨论】:
以上是关于我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3的主要内容,如果未能解决你的问题,请参考以下文章