大数据技术基础笔记5 NoSQL数据库

Posted 2021-05-15 Lora鳃鳃

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据技术基础笔记5 NoSQL数据库相关的知识，希望对你有一定的参考价值。

文章目录

5.1 NoSQL简介

在这里插入图片描述通常，NoSQL数据库具有以下几个特点：
（1）灵活的可扩展性
（2）灵活的数据模型
（3）与云计算紧密融合

5.2 NoSQL兴起的原因

关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面：
（1）无法满足海量数据的管理需求
（2）无法满足数据高并发的需求
（3）无法满足高可扩展性和高可用性的需求

mysql集群是否可以完全解决问题？
复杂性：部署、管理、配置很复杂
数据库复制：MySQL主备之间采用复制方式，只能是异步复制，当主库压力较大时可能产生较大延迟，主备切换可能会丢失最后一部分更新事务，这时往往需要人工介入，备份和恢复不方便
扩容问题：如果系统压力过大需要增加新的机器，这个过程涉及数据重新划分，整个过程比较复杂，且容易出错
动态数据迁移问题：如果某个数据库组压力过大，需要将其中部分数据迁移出去，迁移过程需要总控节点整体协调，以及数据库节点的配合。这个过程很难做到自动化

“One size fits all”模式很难适用于截然不同的业务场景
关系模型作为统一的数据模型既被用于数据分析，也被用于在线业务。但这两者一个强调高吞吐，一个强调低延时，已经演化出完全不同的架构。用同一套模型来抽象显然是不合适的
Hadoop就是针对数据分析
MongoDB、Redis等是针对在线业务，两者都抛弃了关系模型

关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是，关系数据库引以为傲的两个关键特性，到了Web2.0时代却成了鸡肋，主要表现在以下几个方面：
（1）Web2.0网站系统通常不要求严格的数据库事务
（2）Web2.0并不要求严格的读写实时性
（3）Web2.0通常不包含大量复杂的SQL查询（去结构化，存储空间换取更好的查询性能）

5.3 NoSQL与关系数据库的比较

在这里插入图片描述
关系数据库
优势：以完善的关系代数理论作为基础，有严格的标准，支持事务ACID四性，借助索引机制可以实现高效的查询，技术成熟，有专业公司的技术支持
劣势：可扩展性较差，无法较好支持海量数据存储，数据模型过于死板、无法较好支持Web2.0应用，事务机制影响了系统的整体性能等

NoSQL数据库
优势：可以支持超大规模数据存储，灵活的数据模型可以很好地支持Web2.0应用，具有强大的横向扩展能力等
劣势：缺乏数学理论基础，复杂查询性能不高，大都不能实现事务强一致性，很难实现数据完整性，技术尚不成熟，缺乏专业团队的技术支持，维护较困难等

关系数据库和NoSQL数据库各有优缺点，彼此无法取代
关系数据库应用场景：电信、银行等领域的关键业务系统，需要保证强事务一致性
NoSQL数据库应用场景：互联网企业、传统企业的非关键业务（比如数据分析）

采用混合架构
案例：亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用
对于“购物篮”这种临时性数据，采用键值存储会更高效
当前的产品和订单信息则适合存放在关系数据库中
大量的历史订单信息则适合保存在类似MongoDB的文档数据库中

5.4 NoSQL的四大类型

NoSQL数据库虽然数量众多，但是，归结起来，典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库
在这里插入图片描述
键值数据库

在这里插入图片描述键值数据库成为理想的缓冲层解决方案

Redis有时候会被人们称为“强化版的Memcached”
支持持久化、数据恢复、更多数据类型

列族数据库
在这里插入图片描述 文档数据库
“文档”其实是一个数据记录，这个记录能够对包含的数据类型和内容进行“自我描述”。
XML文档、html文档和JSON 文档就属于这一类。
SequoiaDB就是使用JSON格式的文档数据库，它的存储的数据是这样的：
在这里插入图片描述 图形数据库

在这里插入图片描述不同类型数据库比较分析

数据库产品比较：
MySQL产生年代较早，尽管其没有什么大的改进，但是新兴的互联网使用的最多的数据库
MongoDB是个新生事物，提供更灵活的数据模型、异步提交、地理位置索引等五花十色的功能
HBase是个“仗势欺人”的大象兵。依仗着Hadoop的生态环境，可以有很好的扩展性，需要Hadoop才能驱使他
Redis是键值存储的代表，提供随机数据存储，功能最简单

5.5 NoSQL的三大基石

在这里插入图片描述
所谓的CAP指的是：
C（Consistency）一致性：是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的，或者说，所有节点在同一时间具有相同的数据
A:（Availability）可用性：是指快速获取数据，可以在确定的时间内返回操作结果，保证每个请求不管成功或者失败都有响应；
P（Tolerance of Network Partition）分区容忍性：是指当出现网络分区的情况时（即系统中的一部分节点无法和其他节点进行通信），分离的系统也能够正常运行，也就是说，系统中任意信息的丢失或失败不会影响系统的继续运作。

CAP理论告诉我们，一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求，最多只能同时满足其中两个，正所谓“鱼和熊掌不可兼得”。

当处理CAP的问题时，可以有几个明显的选择：
CA：也就是强调一致性（C）和可用性（A），放弃分区容忍性（P），最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然，这种做法会严重影响系统的可扩展性。传统的关系数据库（MySQL、SQL Server和PostgreSQL），都采用了这种设计原则，因此，扩展性都比较差
CP：也就是强调一致性（C）和分区容忍性（P），放弃可用性（A），当出现网络分区的情况时，受影响的服务需要等待数据一致，因此在等待期间就无法对外提供服务
AP：也就是强调可用性（A）和分区容忍性（P），放弃一致性（C），允许系统返回不一致的数据

说起BASE（Basically Availble, Soft-state, Eventual consistency），不得不谈到ACID。
在这里插入图片描述一个数据库事务具有ACID四性：
A（Atomicity）原子性：是指事务必须是原子工作单元，对于其数据修改，要么全都执行，要么全都不执行
C（Consistency）一致性：是指事务在完成时，必须使所有的数据都保持一致状态
I（Isolation）隔离性：是指由并发事务所做的修改必须与任何其它并发事务所做的修改隔离
D（Durability）持久性：是指事务完成之后，它对于系统的影响是永久性的，该修改即使出现致命的系统故障也将一直保持

BASE的基本含义是基本可用（Basically Available）、软状态（Soft-state）和最终一致性（Eventual consistency）
基本可用
是指一个分布式系统的一部分发生问题变得不可用时，其他部分仍然可以正常使用，即允许分区失败的情形
软状态
软状态（soft-state）”是与“硬状态（hard-state）”相对应的一种提法。数据库保存的数据是“硬状态”时，可以保证数据一致性，即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同步，滞后性
最终一致性
对于强一致性而言，当执行完一次更新操作后，后续的其他读操作就可以保证读到更新后的最新数据；反之，如果不能保证后续访问读到的都是更新后的最新数据，那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例.最常见的实现最终一致性的系统是DNS

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以区分为：
因果一致性：如果进程A通知进程B它已更新了一个数据项，那么进程B的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问，仍然遵守一般的最终一致性规则
“读己之所写”一致性：可以视为因果一致性的一个特例。当进程A自己执行一个更新操作之后，它自己总是可以访问到更新过的值，绝不会看到旧值
单调读一致性：如果进程已经看到过数据对象的某个值，那么任何后续访问都不会返回在那个值之前的值

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同，又可以区分为：
会话一致性：它把访问存储系统的进程放到会话（session）的上下文中，只要会话还存在，系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止，就要建立新的会话，而且系统保证不会延续到新的会话
单调写一致性：系统保证来自同一个进程的写操作顺序执行。系统必须保证这种程度的一致性，否则就非常难以编程了

如何实现各种类型的一致性？
对于分布式数据系统：
N — 数据复制的份数
W — 更新数据时需要保证写完成的节点数
R — 读取数据的时候需要读取的节点数
如果W+R>N，写的节点和读的节点重叠，则是强一致性。例如对于典型的一主一备同步复制的关系型数据库，N=2,W=2,R=1，则不管读的是主库还是备库的数据，都是一致的。一般设定是R＋W = N+1，这是保证强一致性的最小设定
如果W+R<=N，则是弱一致性。例如对于一主一备异步复制的关系型数据库，N=2,W=1,R=1，则如果读的是备库，就可能无法读取主库已经更新过的数据，所以是弱一致性。

对于分布式系统，为了保证高可用性，一般设置N>=3。不同的N,W,R组合，是在可用性和一致性之间取一个平衡，以适应不同的应用场景。
如果N=W,R=1，任何一个写节点失效，都会导致写失败，因此可用性会降低，但是由于数据分布的N个节点是同步写入的，因此可以保证强一致性。
实例：HBase是借助其底层的HDFS来实现其数据冗余备份的。HDFS采用的就是强一致性保证。在数据没有完全同步到N个节点前，写操作是不会返回成功的。也就是说它的W＝N，而读操作只需要读到一个值即可，即R＝1。
一些系统允许用户按需要设置N，R，W三个值，即使是设置成W＋R<= N也是可以的，也就是说允许用户在强一致性和最终一致性之间自由选择。

5.6 小结

本章介绍了NoSQL数据库的相关知识

NoSQL数据库较好地满足了大数据时代的各种非结构化数据的存储需求，开始得到越来越广泛的应用。但是，需要指出的是，传统的关系数据库和NoSQL数据库各有所长，彼此都有各自的市场空间，不存在一方完全取代另一方的问题，在很长的一段时期内，二者都会共同存在，满足不同应用的差异化需求

NoSQL数据库主要包括键值数据库、列族数据库、文档型数据库和图形数据库等四种类型，不同产品都有各自的应用场合。CAP、BASE和最终一致性是NoSQL数据库的三大理论基石，是理解NoSQL数据库的基础

介绍了融合传统关系数据库和NoSQL优点的NewSQL数据库

本章最后介绍了具有代表性的NoSQL数据库——文档数据库MongoDB

以上是关于大数据技术基础笔记5 NoSQL数据库的主要内容，如果未能解决你的问题，请参考以下文章