nutch索引元数据没有索引
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了nutch索引元数据没有索引相关的知识,希望对你有一定的参考价值。
我试图从元标记女巫Nutch索引一些元数据。我已经完成了一步一步的教程Nutch - Parse Metatags,但没有任何索引。
我已经像逐步教程一样配置了这个插件。当我运行爬网过程时,我可以读到15个文档在日志中被编入索引,但是当我查看弹性时,我看不到它们。索引已创建,但它有0个文档。日志中没有错误。
索引器:索引,删除或跳过的文档数:
索引器:15索引(添加/更新)
Indexer:2017-12-20 12:42:58结束,逝去时间:00:00:04
如果我删除索引元数据插件并重新运行爬网过程,则文档将在Elastic中写入,但它们没有元标记。
如何使用Notch和Elastic抓取元标记?当我激活该插件时为什么要编制索引?
我正在使用带有弹性的apache-nutch-1.13。
答案
我找到了解决方案。由于字段名称,弹性引发错误。插件创建的名称是“metadata。*”。弹性不接受字段名称中的点。要解决此问题,您必须配置不带前缀“metedata”的索引元数据。此前缀仅适用于Solr。
<property>
<name>metatags.names</name>
<value>description,keywords</value>
<description>...</description>
</property>
...
<property>
<name>index.parse.md</name>
<value>description,keywords</value>
<description>...</description>
</property>
以上是关于nutch索引元数据没有索引的主要内容,如果未能解决你的问题,请参考以下文章
全文索引-lucene,solr,nutch,hadoop之nutch与hadoop