现代信息检索——基本概念
Posted 白水baishui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了现代信息检索——基本概念相关的知识,希望对你有一定的参考价值。
1. 什么是信息检索
所谓信息检索,就是给定信息需求,然后从信息库中找出与需求最匹配的信息。详细地说,信息检索通常涉及信息的获取、存储、组织和访问。是一个从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。
从信息的数据形式上看,数据一般分为“非结构数据”和“结构化数据”两种。所谓非结构化数据,主要是自由文本,结构化数据有表单、数据库等等。
1.2. 信息检索与其他学科领域的关系
- 自然语言处理 (Natural Language Processing, NLP)
自然语言处理是一门对文本进行浅层、深层处理的学科(也称计算语言学) - 数据挖掘 (Data Mining, DM)
数据挖掘是对结构化和非结构化信息进行分类、聚类、预测等分析处理的学科 - 机器学习 (Machine Learning, ML)
机器学习是从数据中学习到知识或规律的学科
1.3. 信息检索技术的应用
信息检索可以用在:搜索(Google、百度)、智能问答(Siri、微软小冰等)、推荐(京东、淘宝)、数据挖掘、情报处理、舆情分析、内容安全等等领域
1.4. 信息检索的分类
- 个人信息检索
主要是个人相关信息的组织、整理、搜索等。主要应用有桌面搜索(Desktop Search)、个人信息管理(Personal Information Management, PIM)、个人数字记忆(Personal Digital Memory) - 企业级信息检索
主要是在企业内容文档的组织、管理、搜索等。企业级信息检索是内容管理(Content Management)的重要组成部分。包括局域网、内网搜索。 - Web信息检索
在超大规模数据集上的检索
2. 信息检索的现实需求
信息检索系统在近些年发展起来的根本原因是:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易。
- 搜索引擎已经成了不可或缺的工具,Yahoo、Google、Baidu等。
- 互联网五大盈利模式:(1)计算广告,搜索广告、展示类广告、开屏广告、视频流广告;(2)商品售卖如京东、淘宝;(3)虚拟产品如网课、地图API;(4)平台佣金,如美团、滴滴;(5)增值服务,如网盘等各类会员;(6)金融服务等,或多或少都依赖信息检索技术的支撑;
- 目前搜索引擎公司甚至整个互联网正常运转的计算广告的核心技术是信息检索技术;
- 用户(国家、企业、个人等)需要信息检索技术:互联网的不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、淘宝等)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析(金融证券行业等)、各类政务系统、商务系统等都需要信息检索技术;
3. 信息检索的工具
信息检索工具:
- SMART:向量空间模型的C工具;
- Lemur、Indri:包含各种信息检索模型的C++实验平台,可以直接对TREC语料进行处理;
- Terrier:格拉斯哥大学开发的信息检索Java实验平台,除基础IR模型外,还包含DFR模型;
- PyTerrier, Terrier的Python版本,整合了近期提出的基于BERT的排序模型;
- Anserini:标准语料实验工具,基于Python,强调“一键复现”。
深度学习工具
- TensorFlow: Google发布的深度学习开源工具平台;
- Theano:蒙特利尔大学开发的基于Python的深度学习工具;
- Keras:由Google工程师François Chollet将TensorFlow / Theano作为Backend的集成工具,近期微软也开发了Keras的Backend工具CNTK;
- Pytorch:Facebook发布的另一个基于Python的深度学习工具。
4. 重要检索工具平台
- Lucene:一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎;
- ElasticSearch:基于Lucene的搜索服务器,用Java开发,并作为Apache许可条款下的开放源码发布,是企业级搜索引擎;
- Sphinx:C++检索工具,实现了BM25概率模型,和mysql集成较好;
- Xapian: C++检索工具,实现了BM25概率模型,易定制;
- Nutch:开源爬虫+Lucene;
- Larbin:C++采集工具;
- Mahout:分布式数据挖掘平台 Java。
以上是关于现代信息检索——基本概念的主要内容,如果未能解决你的问题,请参考以下文章