干货大数据前沿技术应用之HBASE数据库
Posted Creditforce
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了干货大数据前沿技术应用之HBASE数据库相关的知识,希望对你有一定的参考价值。
潘志伟,融之家首席架构师,12年移动互联网开发经验,曾主导万级并发的API网关架构设计。
7月11日,融之家研发中心内部培训活动如期进行,此次培训围绕大数据知识展开,内容涵盖Hadoop和HBASE、Storm、Flume以及Sqoop、微服务架构设计等业界前沿技术及工具的应用。
“大数据本身是一个很宽泛的概念,以Hadoop生态圈或泛生态圈为例,基本上都是为了处理超过单机尺度的数据处理而诞生的,我们可以根据自己的业务需要,选择合适平台的工具和技术更好的服务业务需求。”内训一开始,潘志伟向大家介绍了目前大数据生态圈中主流技术系统和工具。
产品迭代离不开技术支撑,不断学习并应用业界前沿技术,才能为产品运行速度、海量数据处理能力提升打下基础。
借点钱APP(融之家主力产品)历经1.0到2.0的迭代,基本完成了整个后端的微服务化重构,确保平台可以支撑数亿级别用户的实时在线借款服务,进一步提升用户检索与筛选效率,如产品搜索时间、筛选结果响应时间、产品匹配精准度等。
基于融之家平台已正式接入HBASE技术,本次内训重点介绍了HBASE的特性及目前的应用情况。
HBASE是Apahce的开源KV型数据库,建立在HDFS之上,是提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统,主要用来存储非结构化和半结构化的松散数据。
HBASE重要组成部分
容量大:单表可以有百亿行,百万列;
面向列:HBASE是面向列的存储和权限控制,可以动态增加列;
稀疏性:空(NULL)的空列并不占用存储空间;
扩展性:HBASE可以动态增加RegionServer;
高性能:HBASE特有的LSM数据结构,通过行主键RowKey查询速度非常快。
培训会上,潘志伟同时向大家详细介绍了目前大部分平台使用的Hadoop分布式系统基础架构,。
Hadoop的核心架构是MapReduce编程模型和HDFS分布式文件系统,方便用户轻松地在Hadoop上开发和运行处理海量数据的应用程序。
Hadoop功能结构
高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖;
高扩展性:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便地扩展到数以千计的节点中;
并行计算框架:Hadoop提供的MapReduce计算框架,能高效的分析处理海量数据;
高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此其处理速度非常快;
高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
未来,融之家将持续朝向大数据平台发展,通过创建数仓来整合各业务平台之间的数据,引入流式计算平台来实时处理业务数据,通过SOA或者AD-HOC方式来输出大数据平台数据服务,为公司经营决策提供数据依据。
融之家大数据平台整体规划
融之家研发中心现有人员50余名,岗位分布架构师、JAVA工程师、测试工程师、算法工程师、大数据工程师、前端开发工程师、移动开发工程师、全栈工程师、运维工程师等。团队成员多来自百度、腾讯、阿里巴巴、京东、唯品会等知名互联网公司核心研发岗位,以及广发银行、陆金所、点融网等金融机构核心研发岗位。
以上是关于干货大数据前沿技术应用之HBASE数据库的主要内容,如果未能解决你的问题,请参考以下文章
大数据技术之HBaseHBase简介HBase快速入门HBase进阶
大数据技术之HBaseHBase简介HBase快速入门HBase进阶
大数据技术之HBaseHBase简介HBase快速入门HBase进阶
大数据技术之HBaseHBase简介HBase快速入门HBase进阶
Spark进阶 大数据离线与实时项目实战 Spark-Hbase-Redis-Hadoop 大技术栈的企业级应用 网盘云分享