数据库的海量数据的存储解析

Posted 2021-12-07 踩踩踩从踩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据库的海量数据的存储解析相关的知识，希望对你有一定的参考价值。

前言

本篇文章会从数据的概念和分类，以及数据的处理思路及如何使用分区去提高性能，使用分区过后的优缺点。我常用来处理大数据存储问题的分区；会解析关系型数据库和nosql数据库的区别及优缺点。

数据的概念和分类

何为大数据

数据很多，数据量很大，记录数一般在千万级或者亿级甚至更多；从数据条数来说并不准确。

存储体量一般在TB级甚至PB级以上。

存储在一个或多个服务器上；

跟“大数据”的区别

“大数据”指的是对大数据量进行分析和挖掘，发掘出数据中蕴含的有意义的东西，比如：规律、趋势、喜好等，并据此做出一定的推理和预测。

通常会涉及数据仓库、数据挖掘、人工智能AI、机器学习等方面的技术。

对数据推理和预测，对数据仓库进行分析。例如分析平台等，对数据进行分析。

大数据带来的影响

大数据量带来的影响

服务端应用在处理业务逻辑时，会多次操作数据，如果数据量太大，每次对数据进行操作会消耗大量的资源，性能也比较低下，从而导致整个应用性能下降。

最直接的影响就是时间慢，查询速度慢，并且让计算机卡起来了。

大数据量带来的问题

慢：业务处理变慢、响应时间变慢、整个应用变慢；

高并发下多次操作导致数据库崩溃

大数据量问题的本质就是：要操作的数据的基数太大

分类

联机事务处理（OLTP）

面向交易的处理系统，特征是数据需要立即传送到计算中心进行处理，并在短时间内给出处理结果

联机分析处理（OLAP）

通过多维的方式对数据进行分析、查询、报表，不必要即时给出响应结果

平常对于分析平台也就是OLAP的。不必即时出响应结果

OLTP因为需要强一致性，例如银行取钱这些涉及马上要处理成功的。

OLAP弱事务，要求最终一致性。

大数据处理思路

分流

常用的手段：用和不用、常用和不常用分开，例如平常的不同类型的数据，进行分开

对数据库存放的数据：分区、分库、分表现在流行的数据库都提供了分区的自带提供的。

对文件存放的数据：拆文件

考虑分批处理也就是下面redis集群的一种处理方法

原则就是：尽量使每次操作的数据的基数减少

缓存技术

读多写少用缓存，本地缓存或者远端缓存，都可以使用。

数据库优化

合理设计数据库结构

合理构建索引

数据库集群

根据业务关系去设置合理设置出数据库

处理优化

优化Sql

考虑使用临时表、中间表，，例如在sql中使用子查询也是临时表，还是考虑在数据库中考虑使用

合理使用NoSql

Mongodb、Redis、HBase等

分布式大数据处理方案

Hadoop、Spark、Storm等

数据库种类

传统数据库关系型数据库

Oracle、mysql、SQLServer、DB2

关系型数据库，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，以便于用户理解，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。用户通过查询来检索数据库中的数据，而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型，而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织

NoSql数据库

临时性键值存储：Redis、Memcached

永久性键值存储：ROMA、Redis

面向文档存储：mongoDB、CouchDB

面向列存储：Cassandra、HBase

NoSQL，泛指非关系型的数据库。随着互联网 web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的 SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。