调整DIH Apache Solr

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了调整DIH Apache Solr相关的知识,希望对你有一定的参考价值。

我们可以通过dataimport提高从mysql导入数据的Apache solr性能吗?目前我正在使用:

  1. 4核心处理器
  2. RAM 16 GB
  3. 硬盘50 GB
  4. mysql记录1,2百万

现在我得到20分钟完全导入数据。

答案

通常最好的方法是使用DIH(它是单线程并在单个节点上运行 - 因此它不容易扩展)。

通过以合适的语言编写一个小的自定义索引器(甚至使用捆绑的post工具),您可以运行索引器的多个实例,索引到不同的节点(允许您的内容并行处理)并保持多个线程打开到您的后端数据库和Solr。

在从多个进程或线程建立索引时不要使用显式提交是很重要的 - 因为这会在经常提交时消除性能。请改用commitWithin,告诉Solr在x秒过后自动发出提交。如果您完全控制所有进程/线程何时完成,您可以自己发出提交 - 即在索引过程结束时(除非您希望文档在索引时变得可见,在这种情况下使用commitWithin)。

以上是关于调整DIH Apache Solr的主要内容,如果未能解决你的问题,请参考以下文章

Apache Solr 远程命令执行漏洞(CVE-2019-0193)

Solr DIH dataConfig参数XXE漏洞

solr的DIH操作同步mysql数据

Solr Centos6.5下搭建solr-7.7.2集群solrcloud+DIH操作

如何在 SOLR DIH HTTP API 中强制中止数据导入

10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)