如何从本地 Hadoop 2.6 安装访问 S3/S3n?

Posted

技术标签:

【中文标题】如何从本地 Hadoop 2.6 安装访问 S3/S3n?【英文标题】:How can I access S3/S3n from a local Hadoop 2.6 installation? 【发布时间】:2015-01-19 16:23:42 【问题描述】:

我正在尝试在我的本地计算机上重现 Amazon EMR 集群。为此,我安装了latest stable version of Hadoop as of now - 2.6.0。 现在我想访问一个 S3 存储桶,就像我在 EMR 集群中所做的那样。

我已在 core-site.xml 中添加了 aws 凭据:

<property>
  <name>fs.s3.awsAccessKeyId</name>
  <value>some id</value>
</property>

<property>
  <name>fs.s3n.awsAccessKeyId</name>
  <value>some id</value>
</property>

<property>
  <name>fs.s3.awsSecretAccessKey</name>
  <value>some key</value>
</property>

<property>
  <name>fs.s3n.awsSecretAccessKey</name>
  <value>some key</value>
</property>

注意:由于键上有一些斜线,我用 %2F 转义了它们

如果我尝试列出存储桶的内容:

hadoop fs -ls s3://some-url/bucket/

我收到此错误:

ls: No FileSystem for scheme: s3

我再次编辑了core-site.xml,并添加了与fs相关的信息:

<property>
  <name>fs.s3.impl</name>
  <value>org.apache.hadoop.fs.s3.S3FileSystem</value>
</property>

<property>
  <name>fs.s3n.impl</name>
  <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>

这次我得到一个不同的错误:

-ls: Fatal internal error
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)
        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2578)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)

不知何故,我怀疑 Yarn 发行版没有必要的 jar 来读取 S3,但我不知道从哪里获得这些。任何指向这个方向的指针都将不胜感激。

【问题讨论】:

【参考方案1】:

由于某种原因,包含对NativeS3FileSystem 的实现的jar hadoop-aws-[version].jar 在默认情况下在2.6 和2.7 版本的hadoop 的classpath 中不存在。因此,尝试通过在位于$HADOOP_HOME/etc/hadoop/hadoop-env.shhadoop-env.sh 中添加以下行来将其添加到类路径中:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/*

假设您使用的是 Apache Hadoop 2.6 或 2.7

顺便说一句,您可以使用以下命令检查 Hadoop 的类路径:

bin/hadoop classpath

【讨论】:

感谢您的回答:确实是这个问题,希望对后续遇到同样问题的用户有所帮助。让我通过在库路径之前添加 $HADOOP_HOME 路径来更正您的导出:export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/*【参考方案2】:
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell'

import pyspark
sc = pyspark.SparkContext("local[*]")

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

hadoopConf = sc._jsc.hadoopConfiguration()
myAccessKey = input() 
mySecretKey = input()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey)
hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey)

df = sqlContext.read.parquet("s3://myBucket/myKey")

【讨论】:

包裹清单对我有用。 --packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0。而HADOOP_CLASSPATH 没有【参考方案3】:

@Ashrith 的回答对我进行了一项修改:在 Ubuntu 上运行 v2.6 时,我必须使用 $HADOOP_PREFIX 而不是 $HADOOP_HOME。也许这是因为听起来$HADOOP_HOME 是deprecated?

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_PREFIX/share/hadoop/tools/lib/*

话虽如此,但在通过 Homebrew 安装 v2.6 的 Mac 上,这两种方法都不适合我。在这种情况下,我正在使用这个极其复杂的导出:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(brew --prefix hadoop)/libexec/share/hadoop/tools/lib/*

【讨论】:

【参考方案4】:

为了解决这个问题,我尝试了以上所有方法,但都失败了(无论如何对于我的环境而言)。

但是,我可以通过将上面提到的两个 jar 从工具目录复制到 common/lib 中来使其工作。

之后工作正常。

【讨论】:

【参考方案5】:

如果您使用的是 HDP 2.x 或更高版本,您可以尝试在 Ambari 的 MapReduce2 配置设置中修改以下属性。

mapreduce.application.classpath

将以下值附加到现有字符串的末尾:

/usr/hdp/$hdp.version/hadoop-mapreduce/*

【讨论】:

以上是关于如何从本地 Hadoop 2.6 安装访问 S3/S3n?的主要内容,如果未能解决你的问题,请参考以下文章

从日食访问Hadoop群集

如何从 Apache Spark 访问 s3a:// 文件?

windows 本地构建hadoop-spark运行环境(hadoop-2.6, spark2.0)

将文件从 s3:// 复制到本地文件系统

从技术上讲,s3n、s3a 和 s3 之间有啥区别?

如何在 Spark Submit 中将 s3a 与 Apache spark 2.2(hadoop 2.8) 一起使用?