eclipse连接hadoop集群总体思路

Posted 金融科技探索

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了eclipse连接hadoop集群总体思路相关的知识,希望对你有一定的参考价值。

目标

在本地机器上用eclipse连接并操作远端服务器hadoop集群上的hdfs


准备材料

  1. 在Linux机器上搭建好的hadoop集群 

  2. hadoop安装包(直接官网 下载)

  3. 在Windows上编译好的hadoop(在官网 下载的源码版hadoop在Windows上编译)

  4. eclipse

  5. jdk1.7

  6. 本地网络能连接hadoop集群


步骤

  1. 本地安装jdk,并配置JAVA_HOME和PATH

  2. hadoop安装包解压后放到D盘,如:E:\hadoop-2.6.4

  3. Windows环境下编译后的hadoop包中的bin目录和lib目录替换调2步骤

    中的E:\hadoop-2.6.4目录下的bin目录和lib目录

  4. 把E:\hadoop-2.6.4\share目录下的hadoop目录拷贝出来到D盘下,并重命名为hadoopjars(路径和名称可自定义,主要方便后续eclipse库关联)

  5. 在系统环境变量中新增变量HADOOP_HOME,HADOOP_HOME为bin目录和sbin目录所在的目录,如:E:\hadoop-2.6.4

  6. 打开eclipse,新增Java项目,在“项目”处右键选择”Build Path"->“Add Libraries..."->"User Library"->"New"->名字为"hdfsjar"(名字可自定义)

    选中刚刚新建的hdfsjar,右侧选则“Added External JARS”,依次选择并导入第4步骤中以下目录下的所有jar包:

    E:\hadoopjars\common\lib\

    E:\hadoopjars\hdfs\lib

    以及下面的jar包:

    E:\hadoopjars\hdfs\hadoop-hdfs-2.6.4.jar

    E:\hadoopjars\common\hadoop-common-2.6.4.jar

  7. 编写Java代码,操作hdfs文件。以下为拷贝本地文件到hadoop集群的代码示例:

    package teddy_hadoop;

    import org.apache.hadoop.conf.Configuration;

    import org.apache.hadoop.fs.FileSystem;

    import org.apache.hadoop.fs.Path;

    public class CopyFormLocalFile {

    public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    conf.set("fs.defaultFS", "hdfs://192.168.18.200:9000");

    FileSystem fs = FileSystem.get(conf);

    fs.copyFromLocalFile(new Path("E:/tcl_log/ebank-sys-2017-09-27-7.log"), new Path("/user/log/sys-2017-09-27-7.log"));

    fs.close(); 

    }

    }


本文只是粗浅记录核心几个步骤,不便之处敬请谅解,有疑问之处欢迎留言一起探讨。



以上是关于eclipse连接hadoop集群总体思路的主要内容,如果未能解决你的问题,请参考以下文章

win系统下的eclipse连接和使用linux上的hadoop集群

maven怎么连接hadoop集群

windows下在eclipse上远程连接hadoop集群调试mapreduce错误记录

eclipse+hbase开发环境部署

windows下eclipse远程连接hadoop集群开发mapreduce

怎么在windows上搭建hadoop环境