对源数据来自多个来源的 Solr 记录进行索引的好方法是啥？

Posted 2023-04-18

技术标签:

【中文标题】对源数据来自多个来源的 Solr 记录进行索引的好方法是啥？【英文标题】：What is a good way to index a Solr record in which the source data comes from multiple sources?对源数据来自多个来源的 Solr 记录进行索引的好方法是什么？ 【发布时间】：2011-08-29 19:45:14 【问题描述】：

我有多个数据源，我想从中生成 Solr 文档。一个源是文件系统，因此我计划遍历一组（可能很多）文件，以收集每个生成的 Solr 文档中的一部分数据。第二个来源是另一个 Solr 索引，我想从中提取几个字段。第二个来源也可能有许多（约数百万）条记录。如果重要的话，来源 1 提供了大部分内容（每条记录的大小比来源 2 的大几个数量级）。

来源一：

/file/band1 -> id="xyz1" name="beatles" era="60s" /file/band2 -> id="xyz2" name="u2" era="80s" ... /file/band4000 -> id="xyz4000" name="***" era="70s"

来源 2：

solr 记录 1 -> id="xyz2" guitar="edge" solr 记录 2 -> id="xyz4000" guitar="jones" solr 记录 3 -> id="xyz1" guitar="george"

我的问题是如何最好地设计这个工作流程。一些高级选项包括：

完全索引来自源 1（文件系统）的数据。接下来，索引源 2 中的数据并更新已索引的记录。使用 Solr，我相信您仍然不能只向记录添加单个字段，而是将整个旧记录替换为新记录。执行 (1) 的相反操作，首先索引来自 Solr 源的数据，然后是来自文件系统的数据。在索引到 Solr 之前以某种方式集成数据。一般来说，我们对每个源中的遍历顺序知之甚少——也就是说，我没有看到一种简单的方法将两个源一起迭代，其中 xyz1 从两个源中处理，然后是 xyz2等。

所以影响决策的一些因素包括数据的大小（在计算时间或内存方面不能太低效）和 Solr 在替换记录时的性能（原始大小是否很重要？ )。

任何想法将不胜感激。

【问题讨论】：

【参考方案1】：

我想说，如果您不担心存储在两个源中的数据首先被合并，那么选项 1 或 2 可以正常工作。我可能会先索引较大的源，然后用第二个“更新”。

【讨论】：

谢谢...不过，我想我倾向于先索引较小的源。索引的初始成本会更少，而且 Solr 无论如何都会替换整个记录（因为您不能只更新单个字段）。我不确定这是否有很大的不同，但我假设删除一个大的 Solr 文档比删除一个小的文档需要更多的时间。所以更小是指源文件中的文档本身更小，而不是文档的数量。我是说先检查较大的集合，以便它的索引已经创建，然后如果您打算在索引第二个集合时提供请求，则在较小的集合上执行更新一个，您可能会看到更好的性能，但它可能会根据配置可以忽略不计。是的，我最初在这一点上不够清楚——我指的是每条记录的大小差异。【参考方案2】：

使用选项 3 — 在更新之前合并记录。

大概您会使用脚本来迭代文件并在将它们发送到最终的 Solr 索引之前对其进行处理。在该脚本中，使用您的共享标识符查询备用 Solr 索引以获取它可能具有的任何补充字段信息。将其与文件内容适当结合，然后将结果记录发送到 Solr 进行索引。

通过在更新前组合，您不必担心记录会相互覆盖。您还可以更好地控制哪个源具有优先权。此外，只要您不查询该国另一端的服务器，我将假设对备用 Solr 索引的请求时间可以忽略不计。

【讨论】：

以上是关于对源数据来自多个来源的 Solr 记录进行索引的好方法是啥？的主要内容，如果未能解决你的问题，请参考以下文章