数千个文档(pdf 和/或 xml)的可搜索存档的最佳实践

Posted

技术标签:

【中文标题】数千个文档(pdf 和/或 xml)的可搜索存档的最佳实践【英文标题】:Best practices for searchable archive of thousands of documents (pdf and/or xml) 【发布时间】:2012-06-06 23:09:44 【问题描述】:

重新审视一个停滞不前的项目,并寻求有关对数千个“旧”文档进行现代化改造并通过网络提供它们的建议。

文档以各种格式存在,有些已过时:(.docPageMaker、硬拷贝 (OCR)、PDF 等)。资金可用于将文档迁移为“现代”格式,并且许多硬拷贝已经被 OCR 转换为 PDF - 我们最初认为 PDF 将是最终格式,但我们愿意接受建议(XML?) .

一旦所有文档都采用了通用格式,我们希望它们的内容可用并且可通过网络界面搜索。我们希望能够灵活地只返回整个文档中找到搜索“命中”的部分(页面?)(我相信 Lucene/elasticsearch 使这成为可能?!?)如果内容都是 XML,会不会更灵活?如果是这样,如何/在哪里存储 XML?直接在数据库中,还是作为文件系统中的离散文件?文档中嵌入的图像/图表怎么样?

很好奇其他人会如何处理这个问题。没有“错误”的答案,我只是在寻找尽可能多的输入来帮助我们继续。

感谢您的建议。

【问题讨论】:

【参考方案1】:

综上所述:我将推荐ElasticSearch,但让我们分解问题并讨论如何实现它:

这有几个部分:

    从文档中提取文本以使其可索引 将此文本作为全文搜索提供 返回突出显示的文档的 sn-ps 了解在文档中的哪些位置可以找到这些 sn-ps 用于寻呼 返回完整文档

ElasticSearch 能提供什么:

    ElasticSearch(如 Solr)使用 Tika 从各种文档 formats 中提取文本和元数据 很明显,它提供了强大的全文搜索功能。它可以配置 用适当的语言分析每个文档,使用词干、提高某些领域的相关性(例如,标题比内容更重要)、ngram 等,即标准的 Lucene 东西 可以为每个搜索结果返回highlighted snippets 它不知道这些 sn-ps 出现在您的文档中的什么位置 它可以将原始文档存储为attachment,也可以存储并返回提取的文本。但它会返回整个文档,而不是一页。

您可以将整个文档作为附件发送到 ElasticSearch,然后您将获得全文搜索。但症结在于上面的 (4) 和 (5):知道您在文档中的位置,并返回文档的部分内容。

存储单个页面可能足以满足您的 where-am-I 目的(尽管您同样可以进入段落级别),但您希望它们以一种可以在搜索结果中返回文档的方式进行分组,即使搜索关键字出现在不同的页面上。

首先是索引部分:将您的文档存储在 ElasticSearch 中:

    使用 Tika(或任何您喜欢的工具)从每个文档中提取文本。将其保留为纯文本或 html 以保留某些格式。 (忘记 XML,不需要它)。 还提取每个文档的元数据:标题、作者、章节、语言、日期等 将原始文档存储在您的文件系统中,并记录路径以便您以后提供它 在 ElasticSearch 中,索引一个“doc”文档,其中包含所有元数据,可能还有章节列表

    将每个页面索引为“页面”文档,其中包含:

    parent field,其中包含“doc”文档的 ID(请参阅下面的“父子关系”) 正文 页码 可能是章节标题或编号 您希望可搜索的任何元数据

现在开始搜索。您如何执行此操作取决于您希望如何呈现结果 - 按页面或按文档分组。

按页面的结果很容易。此查询返回匹配页面的列表(每个页面都返回完整)以及页面中突出显示的 sn-ps 列表:

curl -XGET 'http://127.0.0.1:9200/my_index/page/_search?pretty=1'  -d '

   "query" : 
      "text" : 
         "text" : "interesting keywords"
      
   ,
   "highlight" : 
      "fields" : 
         "text" : 
      
   

'

显示按“doc”分组并带有文本高亮显示的结果有点棘手。它不能通过单个查询来完成,但是一个小的客户端分组会让你到达那里。一种方法可能是:

第 1 步:执行 top-children-query 以查找其子级(“page”)与查询最匹配的父级(“doc”):

curl -XGET 'http://127.0.0.1:9200/my_index/doc/_search?pretty=1'  -d '

   "query" : 
      "top_children" : 
         "query" : 
            "text" : 
               "text" : "interesting keywords"
            
         ,
         "score" : "sum",
         "type" : "page",
         "factor" : "5"
      
   

第 2 步:从上述查询中收集“doc”ID 并发出新查询以从匹配的“page”文档中获取 sn-ps:

curl -XGET 'http://127.0.0.1:9200/my_index/page/_search?pretty=1'  -d '

   "query" : 
      "filtered" : 
         "query" : 
            "text" : 
               "text" : "interesting keywords"
            
         ,
         "filter" : 
            "terms" : 
               "doc_id" : [ 1,2,3],
            
         
      
   ,
   "highlight" : 
      "fields" : 
         "text" : 
      
   

'

第 3 步:在您的应用中,将上述查询的结果按 doc 分组并显示。

使用第二个查询的搜索结果,您已经拥有可以显示的页面全文。要移至下一页,您只需搜索即可:

curl -XGET 'http://127.0.0.1:9200/my_index/page/_search?pretty=1'  -d '

   "query" : 
      "constant_score" : 
         "filter" : 
            "and" : [
               
                  "term" : 
                     "doc_id" : 1
                  
               ,
               
                  "term" : 
                     "page" : 2
                  
               
            ]
         
      
   ,
   "size" : 1

'

或者,给“页面”文档提供一个由$doc_id _ $page_num 组成的 ID(例如 123_2),然后您就可以检索该页面:

curl -XGET 'http://127.0.0.1:9200/my_index/page/123_2

亲子关系:

通常,在 ES(和大多数 NoSQL 解决方案)中,每个文档/对象都是独立的 - 没有真正的关系。通过在“文档”和“页面”之间建立父子关系,ElasticSearch 确保子文档(即“页面”)存储在与父文档(“文档”)相同的分片上。

这使您可以运行top-children-query,它将根据“页面”的内容找到最匹配的“文档”。

【讨论】:

好的,我会说:“DrTech for President!” ;-) 很棒的答案!希望我能投票更多。谢谢! :) 有趣的是,毕竟我的名字是克林顿 :) 您不知道如何为 PDF 的每个“页面”编制索引? Poppler 工具 poppler.freedesktop.org 在大多数 Linux 发行版上默认可用,速度非常快且非常好。 如果按页面拆分,那么您也可能无法找到跨多个页面拆分的短语,不是吗?【参考方案2】:

我已经构建并维护了一个应用程序,它可以索引和搜索 70k+ PDF 文档。我发现必须从 PDF 中提取纯文本,将内容存储在 SQL 中并使用 Lucene 索引 SQL 表。否则,性能很糟糕。

【讨论】:

将内容存储在数据库中有什么好处?提取内容(假设您不只是使用 Solr 并跳过手动处理)、索引它并丢弃纯文本内容不是更容易吗? 好吧...我不得不回去看看代码。这就是我正在做的事情。首先,我必须说,我们有一个单独的索引服务器来处理这个功能。过程如下: 1) 从内容服务器上的 PDF 中提取文本 2) 使用类似的目录/文件名将文本存储在 .txt 文件中。 3) 索引文本文件。搜索后,我们能够根据文件路径/命名将结果与原始 PDF 相关联 我看不出在这里使用关系数据库有什么好处。 @Dave,一个更正,您不会丢弃原始文本内容,而是使用搜索引擎(Solr,ES,...)来索引和存储它。然后,在搜索结果中,您只需显示指向原始文件的链接。 我们这样做有两个原因。首先,整体索引时间更快。其次,每个文档对应的数据库中都有相关数据,这样构建全索引比较简单。【参考方案3】:

使用Sunspot 或RSolr 或类似的,它处理大多数主要的文档格式。他们使用 Solr/Lucene。

【讨论】:

在这种情况下,PDF over XML 的优缺点?在现阶段,我们可以选择采取任何一种方式。我认为 PDF 一开始可能更容易创建,但可能更难维护和“服务”?!?不知道。寻求建议。 @Meltemi 我看不出 PDF 会更难提供;文件就是文件。 XML 文件需要格式化,并且您需要在所有格式之间转换为 xml。 文件就是文件,但我们希望一次只“提供”整个文档的一部分。所以我想我们可以将每个 PDF 分解成数百个较小的 PDF,它开始变得笨拙。想知道 XML 是否可以长期使这更容易?!?也许不是。 @Meltemi 完全取决于;在不知道确切要求的情况下很难说。 XML DB 有点失宠。内容仍然需要进行格式化/转换,可以根据您的喜好简单或复杂。从原始源到 XML 的转换,同样取决于您的需要,可能是微不足道的,或者基本上是不可能的。使用大数据解决方案并在应用程序级别完全删除文件可能会更好——一个 hBase 行可以有数百万列,每列包含一个段落或其他内容,每一行都是一个文档。大量的解决方案。 @D.Newton - “大量解决方案”。好吧,这就是我问这些问题的原因。我正在寻找想法。不试图挑边。至于“要求”,它们与可能性、复杂性和成本有关。基本上我所知道的是,我们希望用户能够查询所有这些报告,并且如果存在“命中”,则包含“命中”的文档的“某些”部分。而且,从那里开始,我相信我们希望用户能够继续翻阅文档。但不要下载整个东西。希望这是有道理的?!?

以上是关于数千个文档(pdf 和/或 xml)的可搜索存档的最佳实践的主要内容,如果未能解决你的问题,请参考以下文章

在 Windows 中保持打印到虚拟打印机的文档的可搜索性

如何在 blob 容器中查找热文件或冷文件

Solr索引数据

如何在数千个 PDF 文件中抓取表格?

如何以 PDF 和 XML 文件导出 Swagger 文档

在应用程序包中发送包含数千个音频文件的 zip