会议交流的一些杂谈

Posted bisal

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了会议交流的一些杂谈相关的知识,希望对你有一定的参考价值。

最近几天参加了两个会,一个是偏向技术解决方案的,另外一个是行业内的交流,友商介绍了自己的一些实践,确实有很多值得学习的经验。

数据库可能是我们日常应用开发中最常接触的一种软件,我们都知道,传统的关系型数据库,从用途来讲,主要分为两种类型,一种是OLTP,联机事务处理,我们常说的CURD,特点就是小事务,高并发,响应时间要求高,另一种就是OLAP,联机分析处理,主要是数据分析、生成报表的操作,和OLTP的特点,恰恰相反,事务大,低并发,对响应时间的要求很低。

随着业务的发展,企业或者行业内积累的数据几何级数的增长,而且源头可能会是很多个,不再仅限于一个两个的数据库,数据仓库(Data Warehouse)的概念应运而生了,以前总是听老婆说他们的ETL怎么着怎么着,ETL其实就是Extract、Transform、Load的缩写,即代表了对数据进行抽取、清洗、转换和加载的几个过程,他可以将原先分散在不同项目的业务数据汇总为一系列面向主题的数据集合。

我理解如果说OLTP是为了解决数据快速处理的问题,OLAP和数据仓库就是为了解决从海量数据挖掘价值的问题。

但他们处理的都是结构化数据,而随着大数据、机器学习这些技术的兴起,数据价值不仅仅局限于结构化数据,一些半结构化、非结构化的数据,都成为了我们挖掘价值的目标,例如JSON、XML、邮件、各种文档(PDF、CSV、DOC等)、应用日志、监控数据、音频、视频、图片等。因此像ES、Redis、MongoDB这些非关系型数据库起到了他们的作用,但是他们往往只能对特定类型的数据进行处理。

大数据厂商则提出了一种叫“数据湖”的概念,他是面向多数据源的信息存储和分析,甚至可以和物联网进行关联,发挥数据更大的作用。搜了一下,数据湖是2010年Pentaho的CTO,James Dixon最早提出来的,Pentaho没怎么听说过,但是Kettle可能很多人就熟悉了,这块开源的ETL工具,在2006年被Pentaho公司收购,Kettle成为Pentaho的主要组成部分,而2015年,Hitachi Vantara收购了Pentaho,Kettle正式命名为PDI。

之所以叫“湖”,我理解就像真实的湖中,可能有各种各样的动植物,而数据湖,就是有着各种各样丰富的原始数据,包罗万象,这些数据无论是数据结构、存储形式、读取方式,可能都是不同的,但相同的则是这些数据的背后都蕴含着价值,而且数据之间是可以流动的,可以说形成了一个数据生态。更重要的是数据湖能将这些数据整合起来,而不是让他们成为一个个的数据孤岛,云计算的出现让数据湖得到了弹性、可扩展性、计算分离等特性的支持,当然这儿说的很简单,但实际上,数据湖应该是一整套的解决方案,会更复杂。

铺垫了这么多,想说的是这次技术会上,萧老师讲了巨杉数据库,PPT的模版右上角写的是Lake House,而内容同样讲到了这个“湖仓一体”,Lake就是数据湖,House就是数据仓库,这又是什么概念?

其实,如果考虑到海量数据规模成为常态的大背景下,无论是数据湖、数据仓库还是其他数据存储方案,其所存储的数据量一直在不断膨胀,逐渐衍生出一种新的现象,即数据往来、移动操作变得愈加复杂与困难。亚马逊则将这种现象比喻为“数据重力”,是不是很形象?为了消除数据重力现象,打通数据访问的壁垒,就是湖仓一体,或者是智能湖仓。

亚马逊提出的Lake House智能湖仓架构关键之处在于以高度扩展的数据湖为核心,构建起专用数据闭环,实现以安全且受控的方式在不同数据存储方案之间快速移动数据, 为不同业务场景专门构建的分析工具或数据存储之间无缝的协同工作。

用贾扬清老师讲的解释,湖仓一体实现了数据湖和数仓之间的无缝流转,打通了数据存储和计算的不同的层面。湖仓一体的意义就是说我不需要看见湖和仓,数据有着打通的元数据的格式,他可以自由的流动,也可以对接上层多样化的计算生态。

我对这些解决方案关注的不多,了解的很有限,但是通过学习,确实从宏观层面有了一定的认识,这可能就是我们参加一些技术会议、看些技术资料,从中了解一些业界发展的意义。

另外,这次和友商的交流中,体会最深的,不是说技术有多高超,做到了多极致,而是这个架构、解决方案、产品,究竟能为业务提供些什么?究竟能降低多少的成本?究竟能提高多少的工作效率?毕竟在绝对多数的企业中,IT作为支撑业务发展的重要手段,还是要考虑投入产出,抛开业务谈技术,方向就跑偏了,所以说,一件事情,做之前,需要明确目标,用一位前辈说的,我们既要低头走路,又要抬头看天,才可能事半功倍,而不是事倍功半。

近期更新的文章:

imp执行错误IMP-00010

找到系统视图定义的几种操作

NULL判断对SQL的影响

VMWare增加磁盘空间的操作

曾经运维生涯中的几个“最”

文章分类和索引:

公众号700篇文章分类和索引

以上是关于会议交流的一些杂谈的主要内容,如果未能解决你的问题,请参考以下文章

GoDance分布式搜索引擎——团队协作篇

GoDance分布式搜索引擎——团队协作篇

GoDance分布式搜索引擎——团队协作篇

BI 商业智能/数据仓库实施杂谈

“人工智障” 杂谈

beta版总结会议