陈德基谈工业互联网:Hadoop和HBase

Posted 计世研究院

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了陈德基谈工业互联网:Hadoop和HBase相关的知识,希望对你有一定的参考价值。

陈德基谈工业互联网:Hadoop和HBase


HBase是一种大数据库技术,它的底层支撑结构是Hadoop。说起大数据库,不能不提到它试图取代的传统数据库,关系数据库,和底层支撑的文件系统。


我读本科时,数据库是一个学期的专业核心课程。那时关系数据库理论早已成为计算机经典理论,能够用数学公式证明它的正确性和完整性。只要是按照这个理论实现的数据库,你就不用担心它会出错。任何存储、查询、修改操作,都没问题。任何存储数据的系统,如果它不是关系型的,它就不能叫作数据库。数据库这门课也是我最喜欢的一门专业课,对数据库理论的缔造者佩服得五体投地。


举个例子,一个Transaction(事务)往往包含对数据库的多次访问,从数据库读一些数据,做些计算,再写回数据库。如果只有一个用户,问题不大。如果多个用户同时使用数据库,并且有共同访问的数据,如何保证交叉执行的事务等同于是顺序执行的,保证事务的正确性和数据库的完整性?不用担心,有数据库理论的保障,我们广大程序员可以放心使用。


越是完美的东西越是脆弱,随着大数据的来临,关系数据库的局限慢慢凸显出来。大数据的大不仅仅指数据量大,还包括数据流量大、数据类型多、数据质量差等等。这些特点违背了关系数据库对数据的假设。于是人们发明出各种无法做到关系数据库那么完美的数据存储系统,以HBase为典型。人们发明不同的办法来优化不同的方面,所以大数据库技术很多样化。比如MongoDB存文件(document)数据最好。


当然数据量大是关系数据库的一个最大挑战。在工业互联网领域,时序数据(如传感器周期性上报的值)是源源不断进来的。数据越多,关系数据库存储数据的表越大,对表的访问就越慢。很多用关系数据实现的工业应用,刚开始挺好,过一段时间数据库就跑不动了。


因为没有完美的理论基础,学习大数据库技术会感觉非常吃力。规则都很随意,而且规则特别多。我上HBase课时,就很难接受一个原则:HBase的架构要顺从具体应用的需求。难道在没有用户之前我就没法搭建我的数据库?应用随着时间会有变化,难道我每次都要重新设计我的数据库?虽然如此,我还是在回国前弄到了Hadoop开发人员(Developer)证书和HBase专家(specialist)证书。早年读书时的学霸绰号还真不是浪得虚名。


我2021年春季在同济讲课。有一次介绍留学母校的本科生课程,发现关系数据库已经被贬谪为选修课程了。想想还是我们的读书年代幸福,学的都是经典。

免 费 资 料 下 载





往 期 精 彩阅 读






.........


陈德基谈工业互联网:Hadoop和HBase
扫码关注我们
小助手微信:rcyuuuuuu
(添加时请注明事由!)
陈德基谈工业互联网:Hadoop和HBase


更多此类文章,点在看~


以上是关于陈德基谈工业互联网:Hadoop和HBase的主要内容,如果未能解决你的问题,请参考以下文章

为什么工业互(物)联网领域有那么多种类的通讯现场总线和通信协议规约--历史+技术+商业利益

由马云在2017年无锡物联网大会演讲,博主兼谈工业互联网的未来

浅谈工业网络架构及安全

容器技术

社区说|老鸟谈 NLP 的工业落地

社区说|老鸟谈 NLP 的工业落地