大数据云计算物联网数据库数据仓库OLAPOLTP等学习大数据你必须了解的概念,我的学习总结
Posted 阿洋太爱大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据云计算物联网数据库数据仓库OLAPOLTP等学习大数据你必须了解的概念,我的学习总结相关的知识,希望对你有一定的参考价值。
三个概念
Cloud computing-云计算:
- 定义:
百度百科解释:
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。
“分布式计算:
随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。”
现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
我的理解:
结合平时生活里面所遇到过的各种“云”,云计算也就是把计算能力作为一种商品来进行分配流通。“云”就理解为网,云计算把许多计算资源集合起来,通过有专门的角色(软件),很快的对资源进行提供分配。就像是水龙头接水一样,我们作为使用者可以随时不限量的使用,我们只需要按照用量付费就好了。
以前需要自己来打井解决吃水问题,现在可以由自来水公司统一提供,现在云计算的云端相当于自来水公司,只不过它不是解决水资源供给问题,而是解决了计算资源的统一、按需、可伸缩的供给。同样的,还有云储存这个概念,其大致和云计算是一个道理。
- 云计算的意义:
云计算不是一种全新的网络技术,而是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。
云计算是继互联网、计算机后在信息时代又一种新的革新,云计算是信息时代的一个大飞跃,未来的时代可能是云计算的时代,虽然目前有关云计算的定义有很多,但总体上来说,云计算虽然有许多得含义,但概括来说,云计算的基本含义是一致的,即云计算具有很强的扩展性和需要性,可以为用户提供一种全新的体验,云计算的核心是可以将很多的计算机资源协调在一起,因此,使用户通过网络就可以获取到无限的资源,同时获取的资源不受时间和空间的限制。
IOT-- Internet of Things物联网:
- 定义:
百度百科定义:
物联网(Internet of Things简称IOT)是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术,实时采集任何需要监控、 连接、互动的物体或过程,采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息,通过各类可能的网络接入,实现物与物、物与人的泛在连接,实现对物品和过程的智能化感知、识别和管理。物联网是一个基于互联网、传统电信网等的信息承载体,它让所有能够被独立寻址的普通物理对象形成互联互通的网络。
我的理解:
物联网,即物的互联网,属于互联网的一部分。物联网将互联网的基础设施作为信息传递的载体,即现代的物联网产品一定是“物”通过某种方式接入了互联网,而“物”通过互联网上传/下载数据,以及与人进行交互。“物”接入互联网,数据和信息通过互联网交互,同时数据和其他互联网应用一样汇聚到了云端。
- 相关概念:
- 组网:
物联网设备节点组网存在2种组网方式:无线组网和有线组网。无线组网我们常见到的有Zigbee,LoRa, NB-IOT等,其中Lora/NB-IOT属于LPWAN技术,LPWAN技术有覆盖广、连接多、速率低、成本低、功耗少等特点。
NB-IoT有个明显的优势是数据采集后可直接上传到云端,不需要通过网关,简化了现场部署。通常要部署一个网关需要考虑位置,周围信号影响,考虑因素较多。
BIGDATA—大数据:
- 定义:
百度百科定义:
Big Data--大数据,或称巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
我的理解:
大数据要解决的问题一个是把大量的数据存在哪,一个要解决的问题是如何对海量数据进行分析进而发掘出数据的价值。从数据源采集数据到数据处理,再到数据仓库再到之后的种种,所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
相关概念:
ETL—数据仓库技术:
- 定义:
百度百科定义:
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
‘’ETL所描述的过程,一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常越大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,越偏向使用ELT,以便运用目的端数据库的平行处理能力‘’
ETL的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有越来越多的企业采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。工具可以提供较强大的连接功能(connectivity)来连接来源端及目的端,开发人员不用去熟悉各种相异的平台及数据的结构,亦能进行开发。
数据仓库—DW:
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制
个人理解:
数据仓库就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。
‘’
OLAP——联机分析处理:
OLTP——联机事务处理:
1.定义:
OLAP百度百科定义:
联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息。
数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。
OLTP百度百科定义:
联机事务处理系统是一种以事务元作为数据处理的单位、人机交互的计算机应用系统。它能对数据进行即时更新或其他操作,系统内的数据总是保持在最新状态。用户可将一组保持数据一致性的操作序列指定为一个事务元,通过终端、个人计算机或其他设备输入事务元,经系统处理后返回结果,应用于飞机订票、银行出纳、股票交易、超市销售、饭店前后管理等。
我对二者的理解:
参考:OLTP与OLAP理解(CSDN)OLTP与OLAP理解_jojo52013145的博客-CSDN博客
OLTP 顾名思义,以业务处理为主。OLAP则是专门为支持复杂的分析操作而设计的,侧重于对决策人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并以一种直观的形式把查询结果提供。当今的数据处理大致可以分成两大类:联机事务处理OLTP、联机分析处理OLAP。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP是通过物化,即是经过逻辑运算和改变储存方式将关系型数据库转为数据仓库。
物化:“物化的好处是可以存储中间的结果,决策时由于数据经过处理能快一点.
坏处是表现的逻辑会更复杂,更储存空间加大,备份难和维护管理不方便等缺点。
在数据处理中,有三种,一是全物化,也即物化,二是不物化(但决策处理会慢),三是部分物化,(根据情况而设计的.)“
使用物化要考虑的条件有:
1.查询的对象
2.使用频率
3.开销
OLAP系统的体系结构和分类
数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
OLAP系统按照其存储器的数据存储格式可以分为:关系OLAP(relational OLAP,简称rOLAP)、多维OLAP(multidimensional OLAP,简称mOLAP)和混合型OLAP(hybrid OLAP,简称hOLAP)三种类型。
OLTP与OLAP 的主要区别有以下几点:
(1)所面向的用户和系统:OLTP是面向客户的,由职员或客户进行事务处理或者查询处理。OLAP是面向市场的,由经理、主管和分析人员进行数据分析和决策的。
(2)数据内容:OLTP系统管理当前数据,这些数据通常很琐碎,难以用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息,这些特点使得数据适合于决策分析。
(3)数据库设计:通常,OLTP采用ER模型和面向应用的数据库设计,而OLAP系统通常采用星型模式或雪花模式和面向主题的数据库设计。
(4)视图:OLTP系统主要关注一个企业或部门的当前数据,而不涉及历史数据或不同组织的数据。与之相反,OLAP系统常常跨越一个企业的数据库模式的多个版本,OLAP系统也处理来自不同组织的信息,由多个数据源集成的信息。
(5)访问模式:OLTP系统的访问主要由短的原子事务组成,这种系统需要并发控制和恢复机制。而OLAP系统的访问大部份是只读操作,其中大部份是复杂查询。
(6)度量:OLTP专注于日常时实操作,所以以事务吞吐量为度量,OLAP以查询吞吐量和响应时间来度量。
二者区别:
OLTP | OLAP | |
用户 | 操作人员、底层管理人员 | 决策人员,高级管理人员 |
功能 | 日常操作处理 | 分析决策 |
DB设计 | 面向应用 | 面向主题 |
数据 | 当前的,最新细节的,二维的分立的 | 历史的 |
存取 | 读、写数十条数据 | 读上百万条数据 |
工作单位 | 简单的事务 | 复杂的查询 |
用户数 | 上千个 | 上百个 |
DB大小 | 100MB-GB | 100GB-TB |
云计算、物联网、大数据三者之间的联系:
云计算与物联网:
云计算与物联网二者相辅相成,其中云计算是物联网发展的基石,同时作为云计算的最大用户,物联网又不断促进着云计算的迅速发展。在云计算技术的支持下,物联网能够进一步提升数据处理分析能力,不断完善技术。假如没有云计算作为基础支撑,物联网工作效率便大大降低。那么其相比传统技术的优势也不复存在。由此可见,物联网对云计算的依赖性很强。
云计算与大数据:
云计算为大数据的集中管理和分布式访问提供了必要的场所和分享渠道。大数据是云计算的灵魂和必然升级方向。
云计算是大数据发展的前提和必要条件。没有云计算,就缺少了集中采集数据和存储数据的商业基础。云计算为大数据提供了存储空间和访问渠道;大数据则是云计算的灵魂和必然的升级方向。
物联网与大数据:
物联网与移动终端持续不断地产生大量数据,并且数据类型丰富、内容鲜活、是大数据重要的来源。物联网是另一个信息技术邻域的热词,究其本质是传感器技术进步的产物。遍布大街小巷的摄像头,是大家可以直观感受到的一种物联网形态。并且事实上的传感器是无处不在的,传感器无时无刻不在产生数据,而其中的某些数据就被收集起来,成为大数据的重要来源之一。
以上是关于大数据云计算物联网数据库数据仓库OLAPOLTP等学习大数据你必须了解的概念,我的学习总结的主要内容,如果未能解决你的问题,请参考以下文章