搜索引擎数据库

Posted Leo笑

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索引擎数据库相关的知识,希望对你有一定的参考价值。

一、搜索引擎数据库简介

1.1、  搜索引擎数据库简介

      通常意义上的数据库即指数据库系统(Database System,简称 DBS),由数据库、数据库管 理系统、应用程序、管理员四部分组成。DBMS 是数据库 系统的基础和核心,作为能够使用户定义、创建、维护和控制访问数据库的软件系统,其数据结构和 技术架构不断发展,呈现关系型数据库和非关系型数据库并存、集中式与分布式并存的技术现状。

         数据库的发展历经前关系型、关系型和后关系型三大阶段,现阶段的技术路线更加多元化。前关 系型阶段数据库的数据模型主要基于网状模型和层次模型,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。进入 21 世纪后不久,随着数据规模的爆炸式增 长、数据结构的灵活多变、数据应用的不断深化,传统数据库逐渐无法满足更丰富的应用需求, 出现了基于各种新兴技术的新型数据库,数据库产业迎来快速发展。

         我国数据库在海外巨头垄断中艰难发展。在 2000 年以前,我国的数据库市场基本被海外产品 Oracle、SQL Server 和 DB2 垄断。21 世纪头十年是我国第一批国产数据库的萌芽期,人大金仓、 达梦数据、南大通用和神舟通用等国产数据库通过依托科研院校成立,在 21 世纪初期海外巨头的 垄断下艰难生长。2009 年后,随着互联网技术的发展和去“IOE”浪潮的兴起,拉开了数据库国 产替代的序幕。2014 年至今,国产数据库进入了百花齐放的时代,伴随着国家政策的推动,国产 数据库迎来了发展曙光。

1.2、搜索引擎数据库简介

      搜索引擎数据库是一类专门用于数据内容搜索的 NoSQL 数据库,是非结构化大数据处理分析领 域中重要的基础支撑软件。在数据爆炸式增长的当下,非结构化数据已经成为了全球数据量的主 要来源。非结构化数据的数据结构复杂,没有预定义的数据模型,不方便用传统的数据库二维逻 辑来表现,但却蕴含着巨量的价值信息,如何高效地处理分析非结构化数据是数据库领域面临的 机遇和挑战。在这样的时代背景下,搜索引擎数据库的概念逐渐发展起来。它可以提供快速的数据检索服务,是搜索引擎系统的底层支撑。而常见的谷歌、百度等是搜索引擎,它的概念更加宽 泛,不仅涵盖搜索引擎数据库,还包含了爬虫、网页权重计算、检索词纠错、知识图谱和个性化 推荐等模块。

        搜索引擎数据库的应用广泛。搜索引擎数据库早期又称全文数据库、非结构化数据库等,因为搜 索引擎数据库诞生的初期主要是解决关系型数据库中长文本检索效率低下的问题而诞生的,但是 随着技术的发展,目前的搜索引擎数据库已经不仅仅可以处理长文本数据,也可以处理常见的数 值、日期等结构化数据,还可以处理 IP、地理位置信息、图片、音视频等非结构化数据。凭借在 数据查询效率方面的优势,搜索引擎数据库在数据处理方面的地位越来越高,并在应用程序搜索、 网站搜索、企业搜索、智能问答、图像与语音搜索、语义搜索、业务分析和安全分析等方面有着 广泛的应用。

      搜索引擎数据库伴随着搜索引擎的发展而发展。互联网上第一个真正意义的搜索引擎是由蒙特利 尔大学学生 Alan Emtage 于 1990 年开发的 Archie,开创了现代搜索引擎领域。1995 年,全文检索引擎 AltaVista 推出,迅速成为当时最受欢迎的搜索引擎;同年,中国公 司易宝北信推出了全文检索数据库 TRS Database Server,随后获得了国家科技进步二等奖。

          1997年 Google、2001年百度搜索引擎相继问世,Doug Cutting开发的开源全文索引引擎 Lucene 加入了 Apache 基金会,为后续多个搜索引擎数据库的诞生提供了基础,Solr、Elasticsearch 等 常用的搜索引擎数据库都是基于 Lucene 开发的。搜索引擎数据库关注度正在提升。2022 年 11 月 17 日,中国信通院组织召开了“搜索型数据库” 技术研讨会,会议重点讨论了搜索型数据库的市场前景、技术趋势、应用场景、发展态势等议题, 专家们认为我国在搜索型数据库领域存在取得全球领先地位的可能性,同时搜索型数据库的数据 安全问题日益受到业界的关注。

二、搜索引擎数据库进入发展期,有望迎来快速增长

2.1、数据库市场方兴未艾,关系型数据库仍为主流

关系型数据库占据数据库市场绝对主流,搜索引擎数据库份额较低。从全球范围来看,关系型数 据库仍是目前的主流市场。根据 DB-Engines 统计,关系型数据库流行度占比高达 71.3%,非关 系型数据库仅为 28.7%,其中搜索引擎数据库占 4.6%。所有数据库综合排名 TOP10 中有 7 家为 关系型数据库。从中国范围来看,目前我国数据库产品数量分布呈现以关系型为主,非关系型数 据库为辅的局面。根据墨天轮统计,截至 2022 年 11 月,我国数据库产品中有关系型数据库 159 个,非关系型数据库 87 个,其中流行度排名前十的全部是关系型数据库。国产搜索引擎数据库产 品仅有两款。

数据库管理系统市场持续加快增长。据 Gartner 报告显示,2021 年全球数据库管理系统市场收入 接近 800 亿美元,相比 2020 年增加了 145 亿美元,同比增速达到 22.3%,2020 年这个数字是 19%,市场规模正在加速增长。据统计,数据库管理系统市场已连续六年实现增长,自2017年以 来,市场规模已经翻了一倍,四年的年复合增长率达到 19.7%。中国数据库市场规模增速较快,国产化率有望提升。据中国信通院发布的《数据库发展研究报告 2021》统计,2025 年中国的数据库市场规模将达到 688 亿元,5 年年复合增长率达 23.4%。目 前,海外巨头仍占据国内数据库市场较大份额,但国产数据库经历多年沉淀,已经具备初步竞争 力。

2.2、数据库厂商竞争日趋激烈

从全球范围来看,头部数据库厂商屹立不倒,中下游厂商竞争激烈。根据 Gartner 发布的 2011- 2021年数据库管理系统市场份额统计显示,Oracle、微软、AWS、IBM、SAP等头部传统数据库 厂商的市场排名基本稳定。近年来随着互联网的不断发展和云技术的兴起,华为、阿里、谷歌、 腾讯等互联网大厂也加入了数据库市场的竞争中,依靠自身的资源优势迅速进入了排名前列。随着数字经济快速发展以及数据量的爆发式增长,新兴数据库厂商不断涌现,中下游厂商之间的竞 争也愈发激烈,市场排名变动较为明显。

多模数据库、人工智能、数据安全将成为未来数据库领域的发展趋势。随着数据量的爆炸式增长, 数据类型也愈发丰富多变,对数据库的能力提出了挑战,数据库技术也呈现出快速革新的趋势。 目前多模数据库、人工智能和安全能力成为了数据库领域的主要技术发展趋势。

2.3、加速数据库国产替代,搜索引擎数据库空间广阔

国家多项政策促进数据库行业发展,推动国产数据库加速替代。2018 年《科技日报》总结出了 35 项被外国“卡脖子”的关键技术,数据库就是其中一项。 近年来,国家相继颁布多项政策推动数据库关键技术发展,促 进了国产数据库对国外产品的替代。

数字化转型持续推进,搜索引擎数据库的重要性逐渐提高。在国家产业政策的推动下,国产数据 库有望快速发展,但目前国产化替代的主流仍是关系型数据库,主要用于处理结构化数据,而非 结构化数据在日常业务中占据多数,具有优异全文搜索能力的搜索引擎数据库的重要性愈发体现。

搜索引擎数据库市场前景广阔。根据 Gartner 预测,到 2025 年全球图数据库的市场规模将达到 32 亿美元。预计 2025 年中国的搜索引擎数据库市场将达到 32 亿元,占全球搜索引擎数据 库市场的 5.6%。

三、代表数据库分析

   (1)国外:

1、Elastic搜索引擎数据库,Elasticsearch 是其核心的分 布式搜索和分析引擎,也可用视作为分布式的搜索分析型数据库。Elasticsearch 可以适用于所有 数据类型,能够应用到日志监测、基础架构监测、企业搜索、时序数据处理等多种场景,但由于 其核心能力在快速搜索与分析上,Elasticsearch 并不适合于 OLTP 及事务支持等场景。尽管成立 时间较晚,但经过多年的快速发展,目前 Elasticsearch 已经成为了搜索引擎数据库领域的龙头企 业,在 DB-Engines 的搜索引擎数据库排名上,自 2016 年起就长期处于榜首位置。

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎,是 Elastic 产品栈的核心。 Elasticsearch 完美封装了 Lucene 核心库,设计了友好的 RESTful API,开发者无需过多关注底层 机制便可以轻松使用。Elasticsearch 具有良好的可扩展性,提供了分布式的实时文件存储和搜索, 并且支持通过HTTP网络接口交互。

2、Solr企业级开源搜索平台,Apache Solr 是一个完全开源的企业级搜索平台。Solr 于 2006 年首次发布到开源,长期位于 DBEngines 搜索引擎数据库流行度排名榜首,直到近年来才被 Elasticsearch 和 Splunk 超越,目前位 于 DB-Engines 搜索引擎数据库流行度第三名。Solr 和 Elasticsearch 一样基于 Apache Lucene 实 现,具有高度的可扩展性,在企业中被广泛应用。

Solr 相比 Elasticsearch 定制能力更强。Solr 提供了标准的 XML、JSON 和 HTTP 开放接口,开 发者可以轻松用 Solr 构建应用程序。Solr 具有高度的可扩展性和容错能力,通过 Apache Zookeeper,开发者可以方便地进行复制、分发和自动运维。由于 Solr 是完全开源的项目,开发 者可以任意修改代码来进行插件扩展。而 Elasticsearch 由于背靠商业公司,其功能丰富度和完善 度要更贴合业界,相比于 Solr 更注重于开箱即用,很多功能内置在软件中而不需要开发者进行配 置定义,针对不同场景和行业提供的解决方案也更加丰富,学习成本和运维成本显著低于 Solr。

(2)国产:

       1、海贝大数据管理系统

       Hybase 海贝大数据管理系统,服务用户已覆盖公安大数据、 媒体大数据、政府大数据以及专利大数据等众多细分行业。目前,海贝大数据管理系统已经推出 了 9.0 版本,依托在信息检索和 NLP 领域多年的技术积累,从内核到系统完全国产自研, 保证了搜索引擎的自主可控与高效安全。 

     作为国内自主研发的产品,海贝大数据管理系统的安全性更高,易用性更强。 目前,海贝已经实现对国内主流XX厂商相关产品的全面兼容适配,可适用于基于XX软硬件平 台搭建的完全自主可控的大数据应用,全面保障大数据系统的安全性。

       2、Transwarp Scope 分布式搜索引擎

            Transwarp Scope 是国内自主研发的分布式搜索引擎,能提供比 Elasticsearch 更强的扩展 性与可靠性。随着数据量的剧增以及性能要求的不断提高,Elasticsearch 在集群扩展性、可靠性、 数据读写性能、以及数据恢复速度等方面越来越难以满足用户的需求。能提供 PB 级海量数据的交互式多维检索分析服务,能够实现高 可靠、高扩展性的全文搜索与灵活查询。并且能够兼容常用的 Elasticsearch 读写接口,拥有比 Elasticsearch 更强的数据一致性和可靠性。为了更方便地实现国产替代,还提供了从 Elasticsearch 平滑迁移到 Scope 的方案,保障国产替代能够顺利进行。

以上是关于搜索引擎数据库的主要内容,如果未能解决你的问题,请参考以下文章

分布式事务从入门到放弃--详述DT引擎一致性原理及设计

2.23——2.25find命令(上中下);2.26 文件名后缀

火山引擎DataLeap数据调度实例的 DAG 优化方案 :功能设计

UITableView 中下一个/上一个 UITextField 的 IndexPath

从yum源中下载软件包

如何使用 webview 组件在 App 中下载文件?