将一个字段转换为Solr中的多个字段
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将一个字段转换为Solr中的多个字段相关的知识,希望对你有一定的参考价值。
[我正在尝试从Nutch 1.16爬网将某些数据索引到Solr中,但是某些字段要么具有冗余数据(即"metatag.author":["someone","someone"]"
),要么它们只是将每个元数据字段混成一个(即"content":["Raro Bueno\nRaro Bueno\nChuzausen\nAwesome Is Grey, track 6, disc 0/0\n2013-08-17T22:40:55\nelectronic\n30014.912\n"]
)。
我想知道的是,在建立索引之前或最好是在对数据建立索引之后是否有一条命令来修改“内容”字段,以便将其拆分为同等重要的不同字段(例如metatag.author,track_number和专辑是独立的字段),或者至少将“内容”中的元素显示在自己的标签中,所以类似:
"content":{
"track_number":["..."],
"album":[...],
"tags":[..],
...},
...
Nutch提供了一个插件“ index-metadata”,该插件可将解析或内容元数据中可用的任意字段添加到索引文档中。使用插件“ parse-tika”来解析mp3文件,该插件已经填充了解析元数据中的多个字段:
$> bin/nutch parsechecker -Dplugins.includes='protocol-file|parse-tika' \
file:/.../RainDogs.mp3
...
contentType: audio/mpeg
...
Status: success(1,0)
Title: Rain Dogs
Outlinks: 0
Content Metadata: Last-Modified=Sat, 07 Aug 2010 11:53:42 GMT Content-Length=4250145 nutch.crawl.score=0.0 Content-Type=audio/mpeg
Parse Metadata: xmpDM:genre= creator=Tom Waits xmpDM:album=Rain Dogs xmpDM:trackNumber=10 xmpDM:releaseDate=1985 meta:author=Tom Waits xmpDM:artist=Tom Waits dc:creator=Tom Waits xmpDM:audioCompressor=MP3 xmpDM:audioChannelType=Stereo version=MPEG 3 Layer III Version 1 xmpDM:logComment= xmpDM:audiosampleRate=44100 channels=2 dc:title=Rain Dogs Author=Tom Waits xmpDM:duration=177093.546875 Content-Type=audio/mpeg samplerate=44100
现在您可以选择任何字段并将它们添加到索引中。首先,我将使用“ indexchecker”工具测试设置:
$> bin/nutch indexchecker \
-Dplugins.includes='protocol-file|parse-tika|index-(basic|metadata)' \
-Dindex.parse.md='creator,xmpDM:album' \
file:/.../RainDogs.mp3
contentType: audio/mpeg
creator : Tom Waits
xmpDM:album : Rain Dogs
tstamp : Sun Apr 05 13:12:51 CEST 2020
digest : 0ff28956642335818afc7f00b5420e93
host :
id : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
title : Rain Dogs
url : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
content : Rain Dogs
Rain Dogs
Tom Waits
Rain Dogs, track 10
1985
177093.55
之后,您需要将配置属性转移到nutch-site.xml和ev。也适应Solr模式。
字段“ content”可能有助于输入单个搜索框,尤其是。如果字段未正确填写。还考虑一下您有多个作者(音乐,歌词,编曲)和表演者(独奏,人声,指挥等)的情况]
以上是关于将一个字段转换为Solr中的多个字段的主要内容,如果未能解决你的问题,请参考以下文章
Solr 高亮是不是还可以指示返回的片段在原始字段中的位置或偏移量?
结合两个代码片段?将用户输入的 Youtube url 转换为嵌入 url,然后将 iframe src 替换为转换后的 url