ShingleFilterFactory 影响 Solr 中突出显示部分的大小

Posted

技术标签:

【中文标题】ShingleFilterFactory 影响 Solr 中突出显示部分的大小【英文标题】:ShingleFilterFactory affects size of highlighted section in Solr 【发布时间】:2015-07-15 07:15:51 【问题描述】:

ShingleFilterFactory 添加到 solr(索引时间)中的类型确实会导致在使用突出显示进行查询时改变行为。

示例文本:“在船上,龙在盒子里”

如果没有ShingleFilterFactory,两个“in”标记将分别突出显示。

<em>in</em> a ship a dragon was <em>in</em> a box

使用它,整个片段将作为单个突出显示返回。

<em>in a ship a dragon was in</em>

为什么使用 'SingleFilterFactory' 会影响突出显示?

编辑:

按要求添加架构信息:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <charFilter class="solr.htmlStripCharFilterFactory"/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.ShingleFilterFactory" maxShingleSize="2" outputUnigrams="true"/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

使用包含 shingle 过滤器的 text_general 会导致如上所述的异常大的高亮字段。

【问题讨论】:

当您引用示例文本时,是索引文本,还是查询,或两者兼而有之?您介意发布该字段的架构吗? 【参考方案1】:

也许你可以使用这个荧光笔

https://issues.apache.org/jira/browse/LUCENE-1522

您指出的问题是已知的,并且有一些补丁可用:

https://issues.apache.org/jira/browse/LUCENE-1489

编辑:第二个链接与Bereng发送的相同。

【讨论】:

【参考方案2】:

不会有太大帮助,但会有所启发:

https://issues.apache.org/jira/browse/LUCENE-1489

【讨论】:

以上是关于ShingleFilterFactory 影响 Solr 中突出显示部分的大小的主要内容,如果未能解决你的问题,请参考以下文章

n=n+1 放在print(s)的上面的影响 n=

4. Father's Impact on a Child's Language Development 父亲对孩子语言发展的影响

R语言基于库克距离统计量识别(Cook’s distance)对于回归模型性能或者预测影响(Influential observation)很大的观测样本可视化库克距离并添加阈值线识别影响力大的样本

R语言基于库克距离统计量识别(Cook’s distance)对于回归模型性能或者预测影响(Influential observation)很大的观测样本可视化库克距离并添加阈值线识别影响力大的样本

SQL Server返回插入数据的ID和受影响的行数

SQL Server返回插入数据的ID和受影响的行数