我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3

Posted

技术标签:

【中文标题】我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3【英文标题】:I have .dat file in s3. I need to read the file through spark and do some filters and load into the S3 again 【发布时间】:2019-04-13 00:53:43 【问题描述】:

我有一个 .dat 文件,它在 S3 位置有大约 50 列数据,需要通过 spark 读取并对 3 列进行一些过滤,然后再次将数据加载到 s3 中

【问题讨论】:

【参考方案1】:

您的答案在这篇文章中得到解决: Read & Write Parquet Files from and to S3

To access data stored in Amazon S3 from Spark applications, you use Hadoop file APIs (SparkContext.hadoopFile, JavaHadoopRDD.saveAsHadoopFile, SparkContext.newAPIHadoopRDD, and JavaHadoopRDD.saveAsNewAPIHadoopFile) for reading and writing RDDs, providing URLs of the form s3a://bucket_name/path/to/file. You can read and write Spark SQL DataFrames using the Data Source API.

另一个很好的 Cloudera 资源,向您展示如何配置您的应用程序: Access data stored in S3

【讨论】:

以上是关于我在 s3 中有 .dat 文件。我需要通过 spark 读取文件并做一些过滤器并再次加载到 S3的主要内容,如果未能解决你的问题,请参考以下文章

使用 Java 从 .dat 文件中读取对象

我在这个结构中有多少个 s3 前缀

AWS S3 需要哪些权限才能通过云端下载文件

BufferedReader 如何从 S3 读取文件?

使用 spark 下载、处理、上传大量 s3 文件

如何将文件从远程服务器传输到我的 Amazon S3 实例?