Nutch2.3 + HBase 0.94 + Solr 搭建网络数据采集器



            Nutch - 数据采集器(爬取并解析网站数据)

            HBase  - 分布式的存储系统,Hadoop 生态系统的组成之一

            Gora - Nutch 用于存储数据的抽象层

            Solr - 高性能的全文搜索服务器,提供数据查询的API接口,用于搜索Nutch爬取的数据。


            OpenJKD 8 & ant

            Nutch 2.3(版本必须为2.32.2笔者测试未通过)

            HBase 0.94.26(同样注意版本)

            Solr 4.8.0

通过 Ubuntu 系统自带的包管理器安装 OpenJDK 以及 ant,或者下载 .deb 安装文件自行安装,笔者推荐使用包管理器,可以避免安装过程中的依赖问题。

解压 Nutch HBase 安装包至某一目录下。从现在开始我们通过$NUTCH_ROOT指代 Nutch 文件夹根目录,$HBASE_ROOT指代 HBase 文件夹的根目录。

配置 HBase

1.         编辑$HBASE_ROOT/conf/hbase-site.xml文件并将添加


2.         编辑$HBASE_ROOT/conf/hbase-env.sh并将 JAVA_HOME 配置前的注释取消

      -# export JAVA_HOME=/usr/java/jdk1.6.0/


3.         启动 HBase


编译 Nutch

Nutch1.x 1.7版本开始不提供完整的部署文件,只提供源代码文件及相关的 build.xml 文件,这需要用户自己编译 Nutch

1.         编辑$NUTCH_ROOT/conf/gora.properties并添加 HBase 配置。


2.         编译 Nutch

$ ant clean
$ ant runtime

编译需要下载一些依赖包,因此会占用大约10分钟左右时间,编译完成后,在$NUTCH_ROOT目录会生成两个文件夹: build runtime

1.         修改 Nutch 配置文件$NUTCH_ROOT/runtime/local/conf/nutch-site.xml

<value>mycrawlername</value><!-- this can be changed to something moresane if you like -->
<value>mycrawlername</value><!-- this is the robot name we're lookingfor in robots.txt files -->
<!-- do **NOT** enable the parse-htmlplugin, if you want proper HTML parsing. Use something like parse-tika! -->
<value>true</value><!-- do not leave the seeded domains(optional) -->

2.         配置 Nutch 集成 HBase,编辑$NUTCH_ROOT/runtime/local/conf/hbase-site.xml

<value>file:///full/path/to/where/the/data/should/be/stored</value><!-- 与上节中 HBase 的配置相同  -->


1.         下载 Solr 并解压至任意目录,运行 Solr

      $ cdsolr-4.8/example
$ java -jar start.jar



1.         $NUTCH_ROOT目录下创建一个空文件夹seed,并在该文件夹下创建文件urls.txt

      $ mkdirseed
$ echo"http://www.xiaotushuo.com">>seed/urls.txt
$ echo"http://cn.chinadaily.com.cn/">>seed/urls.txt

2.         启动 HBase

      $ $HBASE_ROOT/hbase/bin/hbase-start.sh
$ jps

              通过jps命令可以查看 HBase 是否正常启动。

3.         抓取数据并创建索引

      $ $NUTCH_ROOT/runtime/local/bin/crawl seed/ TestCrawl http://localhost:8983/solr 2

4.         打开 Solr 页面,输入关键词即可查询得数据。



            crawl 命令

      $ cdruntime/local/bin
$ ./crawl
MissingseedDir : crawl <seedDir><crawlID><solrURL><numberOfRounds>

            notch 命令

Usage:nutch COMMAND
whereCOMMAND is one of:
inject    inject new urls into the database
hostinject     creates or updates an existing host tablefrom a text file
generate  generate new batches to fetch from crawl db
fetch     fetch URLs marked during generate
parse     parse URLs marked during fetch
updatedb  update web table after parsing
updatehostdb   update host table afterparsing
readdb read/dump records from page database
readhostdb     display entries from the hostDB
elasticindex   run the elasticsearchindexer
solrindex run the solr indexer on parsed batches
solrdedup remove duplicates from solr
parsechecker   check the parser for agiven url
indexchecker   check the indexing filtersfor a given url
plugin load a plugin and run one of its classes main()
nutchserver    run a (local) Nutchserver on a user defined port
junit  runs the given JUnit test
CLASSNAME run the class named CLASSNAME
Mostcommands print help when invoked w/o parameters.



