NoSQL还是SQL？这一篇讲清楚

Posted 2021-01-04 Bigben

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NoSQL还是SQL？这一篇讲清楚相关的知识，希望对你有一定的参考价值。

https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=2653550127&idx=1&sn=93f79e007d757a2ba887e8dc9e6c47f6&chksm=813a67b7b64deea1093304b21065d76073f0eb6e4b2923181211d0cb4159e1dc8c3104f7436b&scene=0&key=f9325dcb38245ddc7742d7cded4d414f3281d7d65fa874e0f7fc88b5427449e479341ba5713746a72604354fc9dee61561ea327a1ef14a3e92076444b3223ba4f3c0af86cfdc217e49ff5008dfbb9cee&ascene=1&uin=MjgwMTEwNDQxNg%3D%3D&devicetype=Windows-QQBrowser&version=6103000b&lang=zh_CN&pass_ticket=DXC1954%2BK1SGTbNf0BfROhv9qHwlnnEPi%2BhWkN5VYUoPmHizjz4O33VIful%2FVDWv

传统的关系型数据库在应付这些已经显得力不从心，并暴露了许多难以克服的问题。

由此，各种各样的 NoSQL（Not Only SQL）数据库作为传统关系型数据的一个有力补充得到迅猛发展。

技术分享图片

本文将分析传统数据库存在的一些问题，以及几大类 NoSQL 如何解决这些问题，希望给大家提供一些在不同业务场景下存储技术选型方面的参考。

传统数据库的缺点

传统的数据库有如下几个缺点：

大数据场景下 I/O 较高，因为数据是按行存储，即使只针对其中某一列进行运算，关系型数据库也会将整行数据从存储设备中读入内存，导致 I/O 较高。
存储的是行记录，无法存储数据结构。
表结构 Schema 扩展不方便，如要修改表结构，需要执行 DDL(data definition language)，语句修改，修改期间会导致锁表，部分服务不可用。
全文搜索功能较弱，关系型数据库下只能够进行子字符串的匹配查询，当表的数据逐渐变大的时候，like 查询的匹配会非常慢，即使在有索引的情况下。况且关系型数据库也不应该对文本字段进行索引。
存储和处理复杂关系型数据功能较弱，许多应用程序需要了解和导航高度连接数据之间的关系，才能启用社交应用程序、推荐引擎、欺诈检测、知识图谱、生命科学和 IT/网络等用例。

然而传统的关系数据库并不善于处理数据点之间的关系。它们的表格数据模型和严格的模式使它们很难添加新的或不同种类的关联信息。

NoSQL 解决方案

NoSQL，泛指非关系型的数据库，可以理解为 SQL 的一个有力补充。

在 NoSQL 许多方面性能大大优于非关系型数据库的同时，往往也伴随一些特性的缺失，比较常见的是事务库事务功能的缺失。

数据库事务正确执行的四个基本要素 ACID 如下：

技术分享图片

下面介绍 5 大类 NoSQL 数据针对传统关系型数据库的缺点和提供的解决方案：

列式数据库

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理和即时查询。

相对应的是行式数据库，数据以行相关的存储体系架构进行空间分配，主要适合于小批量的数据处理，常用于联机事务型数据处理。

基于列式数据库的列列存储特性，可以解决某些特定场景下关系型数据库 I/O 较高的问题。

基本原理

传统关系型数据库是按照行来存储数据库，称为“行式数据库”，而列式数据库是按照列来存储数据。

将表放入存储系统中有两种方法，而我们绝大部分是采用行存储的。行存储法是将各行放入连续的物理位置，这很像传统的记录和文件系统。

列存储法是将数据按照列存储到数据库中，与行存储类似。下图是两种存储方法的图形化解释：

技术分享图片

常见列式数据库

技术分享图片

HBase：是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的 BigTable 建模，实现的编程语言为 Java。

它是 Apache 软件基金会的 Hadoop 项目的一部分，运行于 HDFS 文件系统之上，为 Hadoop 提供类似于 BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数据。

技术分享图片

BigTable：是一种压缩的、高性能的、高可扩展性的，基于 Google 文件系统（Google File System，GFS）的数据存储系统，用于存储大规模结构化数据，适用于云端计算。

使用场景

以 HBase 为例说明：

大数据量（100s TB级数据），且有快速随机访问的需求。
写密集型应用，每天写入量巨大，而相对读数量较小的应用，比如 IM 的历史消息，游戏的日志等等。
不需要复杂查询条件来查询数据的应用，HBase 只支持基于 rowkey 的查询，对于 HBase 来说，单条记录或者小范围的查询是可以接受的。

大范围的查询由于分布式的原因，可能在性能上有点影响，HBase 不适用于有 join，多级索引，表关系复杂的数据模型。
对性能和可靠性要求非常高的应用，由于 HBase 本身没有单点故障，可用性非常高。
数据量较大，而且增长量无法预估的应用，需要进行优雅的数据扩展的 HBase 支持在线扩展，即使在一段时间内数据量呈井喷式增长，也可以通过 HBase 横向扩展来满足功能。
存储结构化和半结构化的数据。

K-V 数据库

指的是使用键值(key-value)存储的数据库，其数据按照键值对的形式进行组织、索引和存储。

K-V 存储非常适合不涉及过多数据关系业务关系的数据，同时能有效减少读写磁盘的次数，比 SQL 数据库存储拥有更好的读写性能，能够解决关系型数据库无法存储数据结构的问题。

常见 K-V 数据库

技术分享图片

Redis：是一个使用 ANSI C 编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库。

从 2015 年 6 月开始，Redis 的开发由 Redis Labs 赞助，而 2013 年 5 月至 2015 年 6 月期间，其开发由 Pivotal 赞助。

在 2013 年 5 月之前，其开发由 VMware 赞助。根据月度排行网站 DB-Engines.com 的数据显示，Redis 是最流行的键值对存储数据库。

技术分享图片

Cassandra：Apache Cassandra（社区内一般简称为C*）是一套开源分布式 NoSQL 数据库系统。

它最初由 Facebook 开发，用于储存收件箱等简单格式数据，集 Google BigTable 的数据模型与 Amazon Dynamo 的完全分布式架构于一身。

Facebook 于 2008 将 Cassandra 开源，此后，由于 Cassandra 良好的可扩展性和性能。

它被 Apple，Comcas，Instagram，Spotify，eBay，Rackspace，Netflix 等知名网站所采用，成为了一种流行的分布式结构化数据存储方案。

技术分享图片

LevelDB：是一个由 Google 公司所研发的键／值对（Key/Value Pair）嵌入式数据库管理系统编程库，以开源的 BSD 许可证发布。

使用场景

适用场景：

储存用户信息(比如会话)、配置文件、参数、购物车等等。这些信息一般都和 ID（键）挂钩。

不适用场景：

需要通过值来查询，而不是键来查询。Key-Value 数据库中根本没有通过值查询的途径。
需要储存数据之间的关系。在 Key-Value 数据库中不能通过两个或以上的键来关联数据。
需要事务的支持。在 Key-Value 数据库中故障产生时不可以进行回滚。

文档数据库

文档数据库（也称为文档型数据库）是旨在将半结构化数据存储为文档的一种数据库。文档数据库通常以 JSON 或 XML 格式存储数据。

由于文档数据库的 no-schema 特性，可以存储和读取任意数据。

由于使用的数据格式是 JSON 或者 BSON，因为 JSON 数据是自描述的，无需在使用前定义字段，读取一个 JSON 中不存在的字段也不会导致 SQL 那样的语法错误，可以解决关系型数据库表结构 Schema 扩展不方便的问题。

常见文档数据库

技术分享图片

MongoDB：是一种面向文档的数据库管理系统，由 C++ 撰写而成，以此来解决应用程序开发社区中的大量现实问题。2007 年 10 月，MongoDB 由 10gen 团队所发展。2009 年 2 月首度推出。

技术分享图片

CouchDB：Apache CouchDB 是一个开源数据库，专注于易用性和成为"完全拥抱 Web 的数据库"。

它是一个使用 JSON 作为存储格式，javascript 作为查询语言，MapReduce 和 HTTP 作为 API 的 NoSQL 数据库。

其中一个显著的功能就是多主复制。CouchDB 的第一个版本发布在 2005 年，在 2008 年成为了 Apache 的项目。

使用场景

适用场景：

数据量很大或者未来会变得很大。
表结构不明确，且字段在不断增加，例如内容管理系统，信息管理系统。

不适用场景：

在不同的文档上需要添加事务。Document-Oriented 数据库并不支持文档间的事务。
多个文档之间需要复杂查询，例如 join。

全文搜索引擎

传统关系型数据库主要通过索引来达到快速查询的目的，在全文搜索的业务下，索引也无能为力，主要体现在：

全文搜索的条件可以随意排列组合，如果通过索引来满足，则索引的数量非常多。
全文搜索的模糊匹配方式，索引无法满足，只能用 like 查询，而 like 查询是整表扫描，效率非常低。

而全文搜索引擎的出现，正是解决关系型数据库全文搜索功能较弱的问题。

基本原理

全文搜索引擎的技术原理称为“倒排索引”（inverted index），是一种索引方法，其基本原理是建立单词到文档的索引。与之相对的是“正排索引”，其基本原理是建立文档到单词的索引。

现在有如下文档集合：

技术分享图片

正排索引得到索引如下：

技术分享图片

由上可见，正排索引适用于根据文档名称查询文档内容。简单的倒排索引如下：

技术分享图片

带有单词频率信息的倒排索引如下：

技术分享图片

由上可见，倒排索引适用于根据关键词来查询文档内容。

常见全文搜索引擎

技术分享图片

Elasticsearch：是一个基于 Lucene 的搜索引擎。它提供了一个分布式，多租户，能够全文搜索与发动机 HTTP Web 界面和无架构 JSON 文件。

Elasticsearch 是用 Java 开发的，并根据 Apache License 的条款作为开源发布。

根据 DB-Engines 排名，Elasticsearch 是最受欢迎的企业搜索引擎，后面是基于 Lucene 的 Apache Solr。

技术分享图片

Solr：是 Apache Lucene 项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如 Word、PDF）的处理。Solr 是高度可扩展的，并提供了分布式搜索和索引复制。

使用场景

适用场景如下：

分布式的搜索引擎和数据分析引擎。
全文检索，结构化检索，数据分析。
对海量数据进行近实时的处理，可以将海量数据分散到多台服务器上去存储和检索。

不适用场景如下：

数据需要频繁更新。
需要复杂关联查询。

图形数据库

技术分享图片

图形数据库应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。

关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期。

而图形数据库的独特设计恰恰弥补了这个缺陷，解决关系型数据库存储和处理复杂关系型数据功能较弱的问题。

常见图形数据库

技术分享图片

Neo4j：是由 Neo4j，Inc. 开发的图形数据库管理系统。由其开发人员描述为具有原生图存储和处理的符合 ACID 的事务数据库，根据 DB-Engines 排名，Neo4j 是最流行的图形数据库。

技术分享图片

ArangoDB：是由 triAGENS GmbH 开发的原生多模型数据库系统。数据库系统支持三个重要的数据模型（键/值，文档，图形），其中包含一个数据库核心和统一查询语言 AQL（ArangoDB 查询语言）。

查询语言是声明性的，允许在单个查询中组合不同的数据访问模式。ArangoDB 是一个 NoSQL 数据库系统，但 AQL 在很多方面与 SQL 类似。

技术分享图片

Titan：是一个可扩展的图形数据库，针对存储和查询包含分布在多机群集中的数百亿个顶点和边缘的图形进行了优化。

Titan 是一个事务性数据库，可以支持数千个并发用户实时执行复杂的图形遍历。

使用场景

适用场景如下：

在一些关系性强的数据中，例如社交网络。
推荐引擎。如果我们将数据以图的形式表现，那么将会非常有益于推荐的制定。

不适用场景如下：

记录大量基于事件的数据（例如日志条目或传感器数据）。
对大规模分布式数据进行处理，类似于 Hadoop。
适合于保存在关系型数据库中的结构化数据。
二进制数据存储。

总结

关系型数据库和 NoSQL 数据库的选型，往往需要考虑几个指标：

数据量
并发量
实时性
一致性要求
读写分布和类型
安全性
运维成本

常见软件系统数据库选型参考如下：

内部使用的管理型系统，如运营系统，数据量少，并发量小，首选考虑关系型。
大流量系统，如电商单品页，后台考虑选关系型，前台考虑选内存型。
日志型系统，原始数据考虑选列式，日志搜索考虑选倒排索引。
搜索型系统，例如站内搜索，非通用搜索，如商品搜索，后台考虑选关系型，前台考虑选倒排索引。
事务型系统，如库存，交易，记账，考虑选关系型+缓存+一致性型协议。
离线计算，如大量数据分析，考虑选列式或者关系型也可以。
实时计算，如实时监控，可以考虑选内存型或者列式数据库。

在设计实践中，我们要基于需求、业务驱动架构，无论选用 RDB/NoSQL/DRDB，一定是以需求为导向，最终数据存储方案必然是各种权衡的综合性设计。

参考资料：

从0开始学架构 —— Alibaba 李运华
NoSQL漫谈
图形数据库 Neo4j 开发实战
大数据时代的 9 大Key-Value存储数据库
事务—— Redis官方文档
MongoDB是如何实现事务的ACID？
mysql脏读、虚读、幻读
全面梳理关系型数据库和 NoSQL 的使用情景
浅析列式数据库的特点
一分钟搞懂列式与行式数据库
HBase 基本概念
NoSQL Databases, why we should use, and which one we should choose
传统关系数据库与分布式数据库知识点

作者：陈彩华

编辑：陶家龙、孙淑娟

以上是关于NoSQL还是SQL？这一篇讲清楚的主要内容，如果未能解决你的问题，请参考以下文章

NoSQL还是SQL？这一篇讲清楚

基本原理

常见列式数据库

相关特性

使用场景

常见 K-V 数据库

相关特性

使用场景

常见文档数据库

相关特性

使用场景

基本原理

常见全文搜索引擎

相关特性

使用场景

常见图形数据库

相关特性

使用场景

参考资料：