数据库数据仓库大数据,终于搞懂了。。

Posted 阿里云

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据库数据仓库大数据,终于搞懂了。。相关的知识,希望对你有一定的参考价值。


身边朋友知道我在阿里云工作后,总是问我一些专业上的问题:

啥是数据库?
啥是数据仓库?
啥又是大数据?

今天我特别请来了业务的同学给大家讲讲清楚,想知道答案,看下面这篇就够了!




数据处理的起源

人类的发展,离不开数据的处理。最早的数据处理方式是什么?可能是结绳记事——这种古老的数据处理方式,包含了现代计算机拥有的数据存储、查询、分析等全部功能。

这个方法貌似可以,但是数据量稍微大一点的话……


后来,人类创造出了文字后,数据处理能力就大多了。一个典型的“应用”是,从旧石器时代开始,人们就通过甲骨文进行记账。

到新石器时代中晚期,母系氏族社会经济高度发展,人们开始创造并广泛采用成套的刻划符号进行记录、计量。

数据库、数据仓库、大数据,终于搞懂了。。
 

数据库的诞生

现代数据处理革命性的进展,要等到1960年。为了解决零件管理问题。一款叫做ICS的软件被研发出来了,专门用来管理这些零件信息。

后来以此为基础诞生了大名鼎鼎的IMS(Information Management System)数据库。这是现代数据库的祖先。

数据库、数据仓库、大数据,终于搞懂了。。

如何理解数据库呢?

可以把它想象为加强版的EXCEL,在一个表格中记录数据。例如学生的成绩单,记录有姓名、学科、成绩信息。想要查询下学生的平均成绩,只需要按顺序遍历这个表格,加和取平均数。

如果学生很多,对于EXCEL来说那就比较麻烦,但对于数据库来说则比较简单,可使用一种叫SQL的语言,通过描述性的交互取得数据,非常方便。
 

数据仓库的诞生

数据库的诞生,很好地解决了保存、使用数据的问题,大量类似的产品涌现出来。

但到了上世纪70、80年代,企业管理的内部数据发生了一些变化,一方面数据量越来越大,另一方面使用复杂度提高很多。各种复杂报表令人非常头疼,要在其中挖掘出数据背后的价值,当时的数据库已经跟不上需求。

于是,专门用于数据分析的数据库诞生了——1988年数据仓库(Data Warehouse)的概念第一次被提出了。

数据库、数据仓库、大数据,终于搞懂了。。

数据仓库之于数据库就如同F1跑车与普通轿车的区别。

普通轿车突出功能性、舒适性、安全性等等,可满足通用化的全面需求;而F1跑车则强调极致性能,而牺牲了舒适性等。数据仓库就是针对数据分析类场景,有特殊定制优化的产品。

数据库、数据仓库、大数据,终于搞懂了。。


大数据的冲击

到了上世纪90年代,随着互联网的兴起,数据量爆炸式增长,数据处理规模已经从MB(1首MP3)、发展到TB(20万首歌)乃至EB级(2亿首歌)的惊人规模。

此外,数据处理还产生了实时性等新要求,基于传统架构的数据仓库也面临巨大挑战。

就在这个时候,大数据概念被首次提出了,拉开了“大数据”时代的大幕。原来令人困扰的问题,似乎一夜之间找到答案。

不同于今天大家耳熟能详的大数据,这里的大数据可以理解为一种数据处理技术,简单说,就是在单台计算机简单计算的基础上,通过堆积计算机这样的线性扩展方式来处理数据。

数据库和数据仓库当时处理不了的海量数据,在这种分布式处理思路下迎刃而解,数据库几十年的积累,一夜之间被大数据吊打。

数据库、数据仓库、大数据,终于搞懂了。。
 

回归数据库

然而,大数据的狂野架构,从诞生之日起就决定其短板:分布式的方式固然很方便扩展,但是,作为大数据技术的基本单元,单机技术设计很粗糙,因此很快暴露出计算效率不高、精确性、准确度不足等问题。

而大数据技术的短板,正式数据库的强项。

事实上,后来大数据体系中引入SQL、MPP引擎、列存等等,正是吸取了数据库几十年来积累的一点点精华。但是大数据技术的基础过于野蛮,因此很难改进。

而此时,因为分布式协议的成熟,为数据库解决此前无力承受的海量数据、多模异构等问题提供了技术方案。数据库的春天,又回来了!

数据库、数据仓库、大数据,终于搞懂了。。


说到分布式,相信很多人已经想到了云计算。正是分布式的云计算的兴起,让人们获取算力像获取自来水一样方便:即开即用,按需取用。而正是云计算与数据仓的“联姻”,让数据库用云计算的能力迎来新生。

云端数据仓库,融合了云计算和数据库的能力:既可以通过云的能力无限弹性扩展,提高海量数据处理能力,又能通过数据库的能力,对数据进行复杂精细的分析。
 

云数据仓库有多强?
看看阿里云数据仓库AnalyticDB

阿里云自主研发的云原生数据仓库AnalyticDB,顺应这一潮流而诞生。

AnalyticDB采用存储计算分离+多副本架构,支持从1个节点到最大5000节点的实时按需弹性扩容,可实现PB级数据存储、查询秒级响应,解决了传统分析型数据库在数字时代的性能瓶颈,使业务分析效率从天级提升到分钟级乃至秒级。


在TPC最新发布的面向复杂分析场景TPC-DS 10TB权威基准测试中,AnalyticDB性能指标刷新世界纪录,荣登榜单第一名。

在刚刚公布的2019年度浙江省科学技术奖励大会上,AnalyticDB荣获科技进步一等奖。

(再想想,几千年前,我们还在用结绳记事……现在在用的东西,已经彻底看不懂了)
 
目前,AnalyticDB已经服务于阿里经济体及众多外部企业用户,涵盖金融、政府、零售、互联网、教育等诸多行业,帮助更多企业从传统数仓升级到云原生数仓,体验云端数仓的魅力。

我们始终相信,科技的未来,一定会更加美好。

以上是关于数据库数据仓库大数据,终于搞懂了。。的主要内容,如果未能解决你的问题,请参考以下文章

MySQL 的 Buffer Pool,终于被我搞懂了

今天终于把爬虫的Ajax请求搞懂了

今天终于把爬虫的Ajax请求搞懂了

终于搞懂了Java8的内存结构,再也不纠结方法区和常量池了!

终于搞懂了Java 8 的内存结构,再也不纠结方法区和常量池了!!

终于搞懂了Java 8 的内存结构,再也不纠结方法区和常量池了!!