基于Lucene的电子档案文档全文检索系统

Posted 云轩之家

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Lucene的电子档案文档全文检索系统相关的知识,希望对你有一定的参考价值。


本系统主要结合了目前的软件工程知识、web开发技术、数据库操作、搜索引擎、文档预览等先进技术,基于javaEE(java enterprise edition)平台,在表现层,业务逻辑层和数据服务层的基础上,利用了当前流行的Springmvc框架、Bootstrap框架,极大地提高了开发 效率。实现了各个层次间的分离与低耦合,具有很高的安全性和很好的可移植性。本系统采用了面向对象的程序设计方法,用mysql 5.2作为数据库服务器,tomcat7作为web服务器,itext作为文档提取组件,JODConverter作为文档转换组件,pdf.js作为文 档的预览组件。使用了Lucene搜索引擎技术,实现了对文档的比较精确快速的全文检索。

新颖点

  • 集成Lucene,大幅度提高了检索精确度及检索效率

  • 支持大部分文档格式:支持word、pdf、excel、ppt、odf等开放文档格式。

  • 响应式、html5:利用最新技术,多平台完美呈现。

  • 社会化:引入共享概念,任何注册人员均可审核,增加用户粘性。

  • 主流mvc框架,java、mysql等主流开源项目:技术成熟。


主要功能

  • 搜索功能:分为简单搜索和高级搜索。简单搜索为通过关键词进行匹配搜索;高级搜索包括通过文档类型、上传时间、以及对标题及内容的权重指定来进行搜索。

  • 结果展示:搜索结果以google搜索为原型进行展示。单个文档展示内容为展示基本信息,预览文档信息。

  • 显示相关文档功能:利用相似度匹配算法展示库中与指定文档相似度最高的文档。

  • 预览文档功能:高保真预览原始文档。

  • 文档下载功能:点击下载链接即可下载文档,并制动设置文档名称。

  • 分类管理:对文档分类进行增删改查处理。

  • 文档管理:管理员对库中包含文档进行管理,包括增加、删除、修改等操作。

  • 文档审核:对文档进行审核操作,只有审核通过才搜索并可以展示出来。

  • 文档上传:快速添加文档,包括 Microsoft office系列,pdf系列、openoffice系列文档。

  • 权限管理:对已有成员的权限进行添加、修改操作。

  • 人员管理:添加、删除、修改用户。

  • 个人管理:包括查看自己登陆日志、修改账号信息、及统计功能。

  • 系统设置:对系统共有功能进行初始化等全局设置操作,包括Lucene设置,索引设置,文档设置等

  • 系统概述:展示系统各项参数,如cpu、在线人数等统计结果。

  • 评论功能:所有用户可对文档进行评论,评论结果实时写入数据库。

  • 分享功能:点击分享按钮,可将文档分享到各社会化平台(qq空间、豆瓣等)。


  • 登陆注册功能:填写资料进行注册,填写登陆表单进行登陆。

以上是关于基于Lucene的电子档案文档全文检索系统的主要内容,如果未能解决你的问题,请参考以下文章

Lucene实现全文检索的流程

lucene 全文检索原理和流程

超级好看的大数据电子书分享《从Lucene到Elasticsearch:全文检索实战》

[内附完整源码和文档] 基于python的新闻检索系统

lucene

Lucene和Solr学习总结