一种基于结构信息检索文档的思路(html,pdf,html,xml,doc,ppt,这样的异构文档应该如何检索呢?)

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一种基于结构信息检索文档的思路(html,pdf,html,xml,doc,ppt,这样的异构文档应该如何检索呢?)相关的知识,希望对你有一定的参考价值。

文章大纲


1. 背景

在企业数字化转型迫在眉睫的今天,很多工业企业拥有大量的说明、流程、规范等文档,结构化数据库无法解决文档类型的数据检索,现有全文检索

以上是关于一种基于结构信息检索文档的思路(html,pdf,html,xml,doc,ppt,这样的异构文档应该如何检索呢?)的主要内容,如果未能解决你的问题,请参考以下文章

[内附完整源码和文档] 基于python的新闻检索系统

如何解析XML文件

全文检索Lucene

发现一款比swagger还好用的工具,支持导出成PDF文档

倒排索引在lucene中的应用

Lucene原理与代码分析解读笔记