数据仓库数据库大数据,解析。
Posted 网禾网络
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库数据库大数据,解析。相关的知识,希望对你有一定的参考价值。
人类的发展,离不开数据的处理。最早的数据处理方式是什么?可能是结绳记事——这种古老的数据处理方式,包含了现代计算机拥有的数据存储、查询、分析等全部功能。
后来,人类创造出了文字后,数据处理能力就大多了。一个典型的“应用”是,从旧石器时代开始,人们就通过甲骨文进行记账。
到新石器时代中晚期,母系氏族社会经济高度发展,人们开始创造并广泛采用成套的刻划符号进行记录、计量。
数据库的诞生,很好地解决了保存、使用数据的问题,大量类似的产品涌现出来。
但到了上世纪70、80年代,企业管理的内部数据发生了一些变化,一方面数据量越来越大,另一方面使用复杂度提高很多。各种复杂报表令人非常头疼,要在其中挖掘出数据背后的价值,当时的数据库已经跟不上需求。
于是,专门用于数据分析的数据库诞生了——1988年数据仓库(Data Warehouse)的概念第一次被提出了。
数据仓库之于数据库就如同F1跑车与普通轿车的区别。
普通轿车突出功能性、舒适性、安全性等等,可满足通用化的全面需求;而F1跑车则强调极致性能,而牺牲了舒适性等。数据仓库就是针对数据分析类场景,有特殊定制优化的产品。
现代数据处理革命性的进展,要等到1960年。为了解决零件管理问题。一款叫做ICS的软件被研发出来了,专门用来管理这些零件信息。
后来以此为基础诞生了大名鼎鼎的IMS(Information Management System)数据库。这是现代数据库的祖先。
可以把它想象为加强版的EXCEL,在一个表格中记录数据。例如学生的成绩单,记录有姓名、学科、成绩信息。想要查询下学生的平均成绩,只需要按顺序遍历这个表格,加和取平均数。
如果学生很多,对于EXCEL来说那就比较麻烦,但对于数据库来说则比较简单,可使用一种叫SQL的语言,通过描述性的交互取得数据,非常方便。
大数据的冲击
到了上世纪90年代,随着互联网的兴起,数据量爆炸式增长,数据处理规模已经从MB(1首MP3)、发展到TB(20万首歌)乃至EB级(2亿首歌)的惊人规模。
此外,数据处理还产生了实时性等新要求,基于传统架构的数据仓库也面临巨大挑战。
就在这个时候,大数据概念被首次提出了,拉开了“大数据”时代的大幕。原来令人困扰的问题,似乎一夜之间找到答案。
不同于今天大家耳熟能详的大数据,这里的大数据可以理解为一种数据处理技术,简单说,就是在单台计算机简单计算的基础上,通过堆积计算机这样的线性扩展方式来处理数据。
数据库和数据仓库当时处理不了的海量数据,在这种分布式处理思路下迎刃而解,数据库几十年的积累,一夜之间被大数据吊打。
然而,大数据的狂野架构,从诞生之日起就决定其短板:分布式的方式固然很方便扩展,但是,作为大数据技术的基本单元,单机技术设计很粗糙,因此很快暴露出计算效率不高、精确性、准确度不足等问题。
事实上,后来大数据体系中引入SQL、MPP引擎、列存等等,正是吸取了数据库几十年来积累的一点点精华。但是大数据技术的基础过于野蛮,因此很难改进。
而此时,因为分布式协议的成熟,为数据库解决此前无力承受的海量数据、多模异构等问题提供了技术方案。数据库的春天,又回来了!
说到分布式,相信很多人已经想到了云计算。正是分布式的云计算的兴起,让人们获取算力像获取自来水一样方便:即开即用,按需取用。而正是云计算与数据仓的“联姻”,让数据库用云计算的能力迎来新生。
云端数据仓库,融合了云计算和数据库的能力:既可以通过云的能力无限弹性扩展,提高海量数据处理能力,又能通过数据库的能力,对数据进行复杂精细的分析。
在TPC最新发布的面向复杂分析场景TPC-DS 10TB权威基准测试中,AnalyticDB性能指标刷新世界纪录,荣登榜单第一名。
在刚刚公布的2019年度浙江省科学技术奖励大会上,AnalyticDB荣获科技进步一等奖。
(再想想,几千年前,我们还在用结绳记事……现在在用的东西,已经彻底看不懂了)
目前,AnalyticDB已经服务于阿里经济体及众多外部企业用户,涵盖金融、政府、零售、互联网、教育等诸多行业,帮助更多企业从传统数仓升级到云原生数仓,体验云端数仓的魅力。
阿里云自主研发的云原生数据仓库AnalyticDB,顺应这一潮流而诞生。
AnalyticDB采用存储计算分离+多副本架构,支持从1个节点到最大5000节点的实时按需弹性扩容,可实现PB级数据存储、查询秒级响应,解决了传统分析型数据库在数字时代的性能瓶颈,使业务分析效率从天级提升到分钟级乃至秒级。
以上是关于数据仓库数据库大数据,解析。的主要内容,如果未能解决你的问题,请参考以下文章
Hive数据仓库实践
大数据面试题锦集 | 数据仓库工具HIVE篇
数据仓库的构建思路|大数据付费交流群 第十期分享(整理)
腾讯大数据之TDW计算引擎解析——Shuffle
干货数据仓库数据湖数据中台终于有人说清楚了!
从数据仓库数据湖,到数据中台的差异与架构演进