nutch索引元数据没有索引

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了nutch索引元数据没有索引相关的知识,希望对你有一定的参考价值。

我试图从元标记女巫Nutch索引一些元数据。我已经完成了一步一步的教程Nutch - Parse Metatags,但没有任何索引。

我已经像逐步教程一样配置了这个插件。当我运行爬网过程时,我可以读到15个文档在日志中被编入索引,但是当我查看弹性时,我看不到它们。索引已创建,但它有0个文档。日志中没有错误。

索引器:索引,删除或跳过的文档数:

索引器:15索引(添加/更新)

Indexer:2017-12-20 12:42:58结束,逝去时间:00:00:04

如果我删除索引元数据插件并重新运行爬网过程,则文档将在Elastic中写入,但它们没有元标记。

如何使用Notch和Elastic抓取元标记?当我激活该插件时为什么要编制索引?

我正在使用带有弹性的apache-nutch-1.13。

答案

我找到了解决方案。由于字段名称,弹性引发错误。插件创建的名称是“metadata。*”。弹性不接受字段名称中的点。要解决此问题,您必须配置不带前缀“metedata”的索引元数据。此前缀仅适用于Solr。

<property>
  <name>metatags.names</name>
  <value>description,keywords</value>
  <description>...</description>
</property>
...
<property>
  <name>index.parse.md</name>
  <value>description,keywords</value>
  <description>...</description>
</property>

以上是关于nutch索引元数据没有索引的主要内容,如果未能解决你的问题,请参考以下文章

您以前是不是使用过弹性搜索索引 nutch 抓取结果?

全文索引-lucene,solr,nutch,hadoop之nutch与hadoop

使用nutch搭建类似百度/谷歌的搜索引擎

使用nutch搭建类似百度/谷歌的搜索引擎

有没有办法使元数据无效并从 CDSW 中的 python 代码重建索引?

从 Nutch 将 SolrRecord 添加到索引的时间