Apache Pig如何与Apache Lucene集成?

Posted 我是攻城师

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Pig如何与Apache Lucene集成?相关的知识,希望对你有一定的参考价值。

Java代码

  1. ---注册依赖相关的包

  2. REGISTER /home/search/nsconvent/spig/20150112/lucenepig/pigudf.jar;

  3. REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-analyzers-common-4.10.2.jar;

  4. REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-core-4.10.2.jar;

  5. REGISTER /home/search/nsconvent/spig/20150112/lucenepig/lucene-queryparser-4.10.2.jar;

  6. --声明别名引用(注意只能无参的引用,带参数的在反射时候,会出现异常)

  7. DEFINE LuceneStore com.pig.support.lucene.LuceneStore;

  8. --加载数据

  9. a = load '/tmp/data/20150303/tt.txt' using PigStorage(',') as (lbl:chararray,desc:chararray,score:int); ;

  10. --生成索引并存储在HDFS上,注意需要配置简单lucene索引方式(是否存储?是否索引?)

  11. store a into '/tmp/data/20150303/luceneindex' using LuceneStore('store[true]:tokenize[true]');


以上是关于Apache Pig如何与Apache Lucene集成?的主要内容,如果未能解决你的问题,请参考以下文章

Apache Pig 与 Hive [关闭]

如何使用 apache pig 递归加载文件

如何使用 apache pig 在 hadoop 集群上加载文件?

如何计算 Apache Pig 中字符串的长度?

Apache Pig - 如何提取记录集

Apache PIG - 如何获取 Flop 10 数据记录?