分布式NoSQL列存储数据库HBASE

Posted 2021-06-30 Vics异地我就

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分布式NoSQL列存储数据库HBASE相关的知识，希望对你有一定的参考价值。

分布式NoSQL列存储数据库HBASE（一）

知识点02：课程目标

列存储与列式存储不是一个概念
- 列式存储：相同列的数据存储在一起
- 列存储：最小操作单元是列
  - mysql：最小操作单元是行
    - 插入/删除/更新
  - Hbase：最小操作单元是列
    - 每一行可以拥有不同的列
1-Hbase背景介绍和设计思想
- 功能、特点、应用场景
- 基本原理和设计思想
2-Hbase的基本概念
- MySQL：数据库、表、行、列
- 对象概念：NameSpace、Table
- 存储概念：Rowkey、ColumnFamily、Qualifiler、Versions、Timestamp、Region
3-Hbase安装部署分布式集群
- 集群架构和组件：Hbase + ZK + HDFS
- 安装配置：按照笔记一步步实现即可
4-Hbase使用
- 命令的使用
目标
- Hbase是个什么东西？
- Hbase与HDFS、Redis的区别是什么？
- Hbase的整体的存储概念有哪些？
- Hbase的命令有哪些？

知识点03：数据存储需求及HBASE诞生

目标：了解大数据存储业务需求及Hbase的诞生背景
路径
- step1：存储需求
- step2：Hbase诞生
实施
- 存储需求
  - 早期需求：能实现大量数据的存储和计算
    - Hadoop：HDFS + MapReduce
  - 现在需求：大数据要达到一个实时应用的效果
    - 推荐系统、实时监控、机器学习
    - 实时应用：实时采集、实时存储、实时计算、实时应用
      - Flume
      - 需要有一个工具能解决实时存储的问题：读写的速度非常快
        HDFS：离线，性能比较差
        Reids：实时，容量太小
      - Storm
      - Redis
- Hbase诞生
  - Google：前三篇论文
    - GFS
    - MapReduce
    - BigTable【Chubby】
      - 开源实现：Hbase【Zookeeper】
小结
- 了解大数据存储业务需求及Hbase的诞生背景

知识点04：Hbase介绍

目标：掌握Hbase的设计、功能及应用场景

实施

官方定义：http://hbase.apache.org/

Hbase是一个基于Hadoop的分布式的可扩展的大数据存储的基于内存列存储NoSQL数据库

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

可扩展的大数据存储：分布式
随机实时的访问大数据：基于内存存储

功能：提供分布式的实时随机的大数据持久性存储
应用
- 大数据量、高并发、高性能的结构化数据存储【读写】
- 电商：订单
- 交通：实时监控、实时车辆轨迹
- 金融：交易信息

小结
- Hbase的功能与应用场景是什么？
  - 功能：实现高并发和高性能的实时随机的大数据存储
  - 应用：大数据、高并发和高性能的持久化的结构化和半结构化数据存储

知识点05：HBASE设计思想

目标：掌握Hbase的设计思想
实施
- 为什么Hbase读写速度比较快？
  - 基于内存：达到实时性的效果
  - Redis：分布式内存
- 为什么Hbase可以支持大数据量？
  - 基于分布式磁盘
  - HDFS：分布式磁盘
- 核心思想：冷热数据分离
  - 热数据：常用的，会经常读取的数据，大概率会被读取的数据
  - 冷数据：不常用，不会经常被读取的数据
  - 应用场景：实时
    - 热数据：刚产生的数据
    - 冷数据：已经产生很久的数据
  - 思想：将刚产生的数据写入分布式内存，内存存储达到一定阈值，将内存中的数据写入分布式磁盘【HDFS】
    - 实时小数据量场景下：大概率情况下，数据直接从内存中就直接被读取了
    - 问题：很多场景下，Hbase的大量数据都存储在HDFS中，读取比较慢，怎么解决？
      - 实时大数据量场景下：需要从HDFS中读取
      - 离线数据存储场景下：大量的数据都从HDFS中读取
    - 解决：通过存储设计角度来解决这些问题
      - 索引 + 二进制 + 有序 + 缓存
- Hbase与HDFS、Redis有什么区别？
  - Hbase：分布式NoSQL数据库、实时、分布式内存+分布式磁盘、大数据量永久性存储或者临时存储
  - HDFS：分布式文件系统、离线、分布式磁盘、大数据量永久性存储
  - Redis：分布式NoSQL数据库、实时、分布式内存、大数据量缓存或者小数量永久性存储
小结
- 掌握Hbase的设计思想

知识点06：HBASE中的对象概念

目标：掌握Hbase中的对象的概念
路径
- step1：MySQL中的对象
- step2：Hbase中的数据库概念
- step3：Hbase中的表概念
实施
- MySQL中的对象
  - 数据库：DataBase
    - 表：Table
      方式一：dbname.tbname;
      方式二：user dbname;select * from tbname;
      - 行：Row
        列：Column
Hbase中的数据库概念NameSpace
- 概念：命名空间，等同于数据库中的Database的概念
  - Hbase中的任何一张表都必须属于某个NameSpace
- 使用
  - Hbase中没有切换NameSpace的命令，访问所有表只能使用Namespace:TableName方式来访问表
- 理解：把Namespace当做表名的前缀来看，只要访问表名必须加ns
Hbase中的表概念Table
- 概念：表的概念，等同于数据中的表的概念
- 使用
  - Hbase中的表是分布式的：表的数据分布式存储在不同的机器上
  - Hbase是分布式存储【读写】，读写是操作表
  - 所有的表在访问时，都必须加上ns的名称，除非表在default默认ns下，可以不加ns名称来进行访问
    - 有一个ns叫做itcast，这个ns中有一张表叫做heima
      itcast:heima
    - Hbase中自带了一个ns叫做default，这个ns中有一张表叫t1
      default:t1 或者 t1
小结
- 什么是NameSpace？
  - 就是数据库概念，Hbase中的表要存储ns下面
  - 注意：ns没有切换的操作
- Hbase的表与MySQL的表有什么区别？
  - Hbase的表是分布式的，写入Hbase表中的数据是分布式存储
  - 所有表的访问必须加上ns的名称：ns:tbname，除非表在default的ns下面

知识点07：HBASE中的存储概念

目标：掌握Hbase中的存储的概念
实施
- 数据行设计Rowkey
  - Rowkey：行健，这个概念是整个Hbase的核心，类似于MySQL主键的概念
  - MySQL主键：可以没有，唯一标记一行、作为主键索引
    - 如果有，从数据中选择一列来自己指定，可以有可以没有
      id name age gender phone add id
  - Hbase行健
    - 所有Hbase的表不用定义，所有Hbase的表自带行健这一列【行健这一列的值由用户自己设计】
```
rowkey		sid		name		age			gender		phone		add			id
可以使用sid作为rowkey
	sid查询走索引查询
可以使用name+id作为rowkey：rowkey索引查询是前缀匹配
  	name查询走索引
	name+id查询走索引
```
    - 唯一标识一行
    - 作为Hbase表中的唯一索引
    - Hbase不能创建索引
  - 问题：查询数据走索引查询和全表扫描，只有按照rowkey查询才走索引查询
    - 原因：Hbase整个数据存储都是按照Rowkey实现数据存储的
      - Rowkey的值是什么，决定了按照什么查询就是走索引的
列族设计ColumnFamily
- cf：列族，对除了Rowkey以外的列进行分组，将列划分不同的组中
  - 注意：任何一张Hbase的表，都至少要有一个列族，除了Rowkey以外的任何一列，都必须属于某个列族，Rowkey不属于任何一个列族
- 分组：将拥有相似IO属性的列放入同一个列族【要读一起读，要写一起写】
  - 设计原因：划分列族，读取数据时可以加快读取的性能
    - 如果没有列族，没有划分班级教室：找一个人，告诉你这个人就在这栋楼
  - 如果有了列族，划分了教室：找一个人，告诉你这个人在这栋楼某个房间
数据列设计Qualifier
- Qualifier/Column：列，与MySQL中的列是一样
  - 注意
    - Hbase除了rowkey以外的任何一列都必须属于某个列族，引用列的时候，必须加上列族的名称
      - 如果有一个列族：basic
        如果basic列族中有两列：name，age
        basic:name
        basic:age
    - Hbase是列存储，Hbase中每一行拥有的列是可以不一样的
      - 每个Rowkey可以拥有不同的列
多版本设计VERSIONS
- 功能：某一行的任何一列存储时，只能存储一个值，Hbase可以允许某一行的某一列存储多个版本的值的
  - 默认每一列都只能存储1个版本
- 级别：列族级别，指定列族中的每一列最多存储几个版本的值，来记录值的变化的
- 区分：每一列的每个值都会自带一个时间戳，用于区分不同的版本
  - 默认情况下查询，根据时间戳返回最新版本的值
- 分布式设计
  - HDFS设计
    - 文件夹
    - 文件：划分Block：根据每128M划分一个块，每个Block存储在不同的机器上
  - Hbase的表如何实现分布式存储的？
    - Namespace
    - Table：Region：分区，Hbase中任何一张都可以有多个分区，数据存储在表的分区中，每个分区存储在不同的机器上
      - 非常类似于HDFS中Block的概念
  - 划分规则：范围分区
  - 设计对比
    分布式概念 HDFS Redis Hbase
    对象目录 + 文件 DB0 Namespace + Table
    分布式 Block 分片集群 Region
    划分规则按照大小划分：128M 槽位划分按照范围划分
整体概念对比
概念 MySQL Hbase
数据库 DataBase NameSpace
数据表 Table Table【分布式的】
数据分区 - Region
数据行数据【主键+其他列】 Rowkey+数据【其他列】
列族 - ColumnFamily
数据列普通列与对应的值列【timestamp】与对应的值【支持多版本】
小结
- 什么是行健Rowkey？
  - 类似于主键的概念
  - 功能：唯一标识一行，作为唯一索引
  - 使用：所有Hbase的表自带这一列，值由自己设计，只有按照rowkey的查询才走索引，根据rowkey属于哪个region的范围进行分区
- 什么是列族ColumnFamily？
  - 本质就是对列的分组
  - 设计：提高查询的性能
  - 使用：任何一张表至少有一个列族
- 什么是多版本？
  - 某一行的某一列可以存储多个版本的值
  - 级别：列族
  - 区分：timestamp
- 什么是Region？
  - Hbase中表的分区，一张表可以有多个分区，用于实现构建分布式表，不同Region存储在不同Hbase节点上
  - 如果决定写入一条数据到表中，会写入哪个分区？分区规则：范围分区

知识点08：HBASE中的按列存储

目标：了解Hbase中的按列存储的设计
实施
- 本质：KV结构存储
  - 底层：将每一列的数据变成一个KV对来进行存储
  - 结构
    - K：Rowkey + CF + column + TS
    - V：value
  - 业务数据
    rowkey cf:id cf:age cf:name
    20200101_001 001 18 zhangsan
  - 底层存储
    K V
    0200101_001+cf+age+ts 18
    20200101_001+cf+id+ts 001
    20200101_001+cf+name+ts zhangsan
- 功能
  - Hbase的最小操作单元是列，不是行，可以实现对每一行的每一列进行读写
- 设计
  - MySQL：按行存储，最小的操作单元是行
    - insert：插入一行
    - delete：删除一行
    - ……
  - Hbase：按列存储，最小操作单元是列
    - 插入：为某一行插入一列
    - 读取：只读某一行的某一列的
    - 删除：只删除这一行的某一列
- 举例
  - MySQL中读取数据
    - 查询【id，name,age,addr,phone……100列，每一列10M】：select id from table ;
      - 先找到所有符合条件的行，将整行的数据所有列全部读取：1000M数据
      - 再过滤id这一列：10M
  - Hbase中读取数据
    - 查询【id，name,age,addr,phone……100列，每一列10M】：select id from table ;
    - 直接对每一行读取这一列的数据：10M
- 总结
  - 思想：通过细化了操作的颗粒度，来提高读的性能
  - 如果按行存储：找一个人，告诉你这个人就在这栋楼某个房间的某一排
  - 如果按列存储：找一个人，告诉你这个人在这栋楼某个房间的某一排的某一列
小结
- 了解Hbase中的按列存储的设计

知识点09：HBASE集群架构

目标：掌握Hbase集群的集群架构
实施
- 架构
  - Hbase集群：分布式架构集群，主从架构
    - HMaster：主节点：管理节点
      - 负责所有从节点的管理
      - 负责元数据的管理
    - HRegionServer：从节点：存储节点
      - 负责管理每张表的分区数据：Region
      - 对外提供Region的读写请求
      - 用于构建分布式内存
角色
- Hbase：通过RegionServer构建分布式内存
- HDFS：构建分布式磁盘
- Zookeeper
  - 辅助选举：多个Master的Active选举
  - 存储元数据：Hbase的管理元数据
小结
- 掌握Hbase集群的集群架构

知识点10：HBASE集群部署

目标：实现Hbase分布式集群部署
实施
- 解压安装
  - 上传HBASE安装包到第一台机器的/export/software目录下
    cd /export/software/
    rz
  - 解压安装
```
tar -zxvf hbase-2.1.0.tar.gz -C /export/server/
cd /export/server/hbase-2.1.0/
```
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ISz6rie-1624451725978)(Day26_分布式NoSQL列存储数据库HBASE（一）.assets/image-20210524114532990.png)]

修改配置

切换到配置文件目录下
cd /export/server/hbase-2.1.0/conf/

修改hbase-env.sh

#28行
export JAVA_HOME=/export/server/jdk1.8.0_241
#125行
export HBASE_MANAGES_ZK=false

修改hbase-site.xml

cd /export/server/hbase-2.1.0/
mkdir datas
vim conf/hbase-site.xml

  <property >
    <name>hbase.tmp.dir</name>
    <value>/export/server/hbase-2.1.0/datas</value>
  </property>
    <property >
    <name>hbase.rootdir</name>
    <value>hdfs://node1:8020/hbase</value>
  </property>
  <property >
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>node1:2181,node2:2181,node3:2181</value>
  </property>

修改regionservers

vim conf/regionservers

node1
node2
node3

配置环境变量

vim /etc/profile

#HBASE_HOME
export HBASE_HOME=/export/server/hbase-2.1.0
export PATH=:$PATH:$HBASE_HOME/bin

source /etc/profile

分发
cd /export/server/
scp -r hbase-2.1.0 node2: $P W D s c p - r h b a s e - 2.1.0 n o d e 3 :$ PWD
服务端启动与关闭
- step1：启动HDFS
  start-dfs.sh
  - step2：启动ZK
```
/export/server/zookeeper-3.4.5/bin/start-zk-all.sh
```
  - step3：启动Hbase
```
start-hbase.sh
```
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7ZiQUzzO-1624451725982)(Day26_分布式NoSQL列存储数据库HBASE（一）.assets/image-20210524115912008.png)]
    
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u8sVTVQ3-1624451725984)(Day26_分布式NoSQL列存储数据库HBASE（一）.assets/image-20210524120039069.png)]
  - 关闭：先关闭Hbase再关闭zk
```
stop-hbase.sh
stop-zk-all.sh
```
  stop-dfs.sh

测试

访问Hbase Web UI
node1:16010

Apache Hbase 1.x之前是60010，1.x开始更改为16010
CDH版本：一直使用60010

搭建Hbase HA
- 关闭Hbase所有节点
  stop-hbase.sh
- 创建并编辑配置文件
  vim conf/backup-masters
  node2
- 启动Hbase集群
测试HA
- 启动两个Master，强制关闭Active Master，观察StandBy的Master是否切换为Active状态
  hbase-daemon.sh stop master
- 【测试完成以后，删除配置，只保留单个Master模式】
小结
- 实现Hbase分布式集群部署

知识点11：HBASE开发场景

目标：了解Hbase使用过程中的不同开发场景
实施
- 场景1：集群管理
  - 应用场景：运维做运维集群管理，我们开发用的不多
  - 需求：封装Hbase集群管理命令脚本
    - 类似于hive -f xxx.sql
    - 举个栗子：每天Hbase集群能定时的自动创建一张表
    - 分析
      - 要实现运行Hbase脚本：创建表：/export/data/hbase_create_day.sh
        #!/bin/bash
        create ‘tbname’,‘cf1’
        问题是：怎么能通过Linux命令行运行Hbase的命令呢？
      - 要实现定时调度：Linux Crontab、Oozie、Azkaban
        00 00 * * * sh /export/data/hbase_create_day.sh
  - 实现：通过Hbase的客户端运行命令文件，通过调度工具进行调度实现定时运行
  - 用法：hbase shell 文件路径
    - step1：将Hbase的命令封装在一个文件中：vim /export/data/hbase.txt
```
list
exit
```
    - step2：运行Hbase命令文件
```
hbase shell /export/data/hbase.txt
```
    - step3：封装到脚本
```
#!/bin/bash
hbase shell /export/data/hbase.txt
```
  - 注意：所有的Hbase命令文件，最后一行命令必须为exit
  - 导入测试数据
    - 数据中的字段信息
    - step1：先上传文件
    - step2：运行文件
```
hbase shell /export/data/ORDER_INFO.txt
```
    - step3：查看表中数据
```
scan 'ORDER_INFO',{FORMATTER=>'toString'}
```
      [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-clka7Cai-1624451725986)(Day26_分布式NoSQL列存储数据库HBASE（一）.assets/image-20210524144418176.png)]
场景2：测试开发
- 需求：一般用于测试开发，执行DDL操作，类似于SQL之类的命令
- 实现：Hbase shell命令行
- 用法：hbase shell
- 命令
  - 查看帮助：help
  - 查看命令的用法：help ‘command’
场景3：生产开发
- 需求：一般用于生产开发，通过MapReduce或者Spark等程序读写Hbase，类似于JDBC
  - 举个栗子：读取Hbase中的数据，进行分析处理，统计UV、PV
  - 分析
    - step1：通过分布式计算程序Spark、Flink读取Hbase数据
    - step2：对读取到的数据进行统计分析
    - step3：保存结果
- 实现：分布式计算程序通过Java API读写Hbase，实现数据处理
- 用法：在MapReduce或者Spark中集成API
小结
- 了解Hbase使用过程中的不同开发场景

知识点12：HBASE命令行：DDL：NS

目标：掌握Hbase中的常用DDL的NameSpace管理命令
实施
- NameSpace管理
  Group name: namespace
  Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables
  - 列举所有Namespace
    - 命令：list_namespace
    - SQL：show databases
    - 语法
      list_namespace
    - 示例
      list_namespace
  - 列举某个NameSpace中的表
    - 命令：list_namespace_tables
      - SQL：show tables in dbname
    - 语法
      list_namespace_tables ‘Namespace的名称’
    - 示例
      list_namespace_tables ‘hbase’
- 创建
  - 命令：create_namespace
    - SQL：create database dbname
  - 语法
    create_namespace ‘Namespace的名称’
    - 示例
      create_namespace ‘heima’
      create_namespace ‘itcast’
- 删除
  - 命令：drop_namespace
    - 只能删除空数据库，如果数据库中存在表，不允许删除
  - 语法
    drop_namespace ‘Namespace的名称’
  - 示例
    drop_namespace ‘itcast’
    drop_namespace ‘heima’
小结
- 掌握Hbase中的常用DDL的NameSpace管理命令

知识点13：HBASE命令行：DDL：Table

目标：掌握Hbase中的常用DDL表的命令
实施
- Table的管理命令
  Group name: ddl
  Commands: alter, alter_async, alter_status, clone_table_schema, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, list_regions, locate_region, show_filters
- 列举
  - 命令：list
    - SQL：show tables
  - 语法： list
  - 示例
    list
  - 创建
    - 命令：create
    - SQL：表名 + 列的信息【名称和类型】
      - Hbase：必须指定表名 + 至少一个列族
        表名
        至少一个列族
    - 语法
      #表示在ns1的namespace中创建一张表t1,这张表有一个列族叫f1，这个列族中的所有列可以存储5个版本的值
      create ‘ns1:t1’, {NAME => ‘f1’, VERSIONS => 5}
      #在default的namespace中创建一张表t1,这张表有三个列族，f1,f2,f3，每个列族的属性都是默认的
      create ‘t1’, ‘f1’, ‘f2’, ‘f3’
    - 示例
    如果需要更改列族的属性，使用这种写法
    create ‘t1’,{NAME=>‘cf1’},{NAME=>‘cf2’,VERSIONS => 3}
    如果不需要更改列族属性
    create ‘itcast:t2’,‘cf1’,‘cf2’,‘cf3’ = create ‘t1’,{NAME=>‘cf1’},{NAME=>‘cf2’}，{NAME=>‘cf3’}
- 查看
  - 命令：desc
    - SQL ：desc tbname
  - 语法
    desc ‘表名’
  - 示例
    desc ‘t1’
- 删除
  - 命令：drop
    - SQL：drop table tbname
  - 语法
    drop ‘表名’
  - 示例
    drop ‘t1’
  - 注意：如果要对表进行删除，必须先禁用表，再删除表
- 禁用/启用
  - 命令：disable / enable
  - 功能
    - Hbase为了避免修改或者删除表，影响这张表正在对外提供读写服务
    - 规则：修改或者删除表时，必须先禁用表，表示这张表暂时不能对外提供服务
    - 如果是删除：禁用以后删除
    - 如果是修改：先禁用，然后修改，修改完成以后启用
  - 语法
    disable ‘表名’
    enable ‘表名’
  - 示例
    disable ‘t1’
    enable ‘t1’
- 判断存在
  - 命令：exists
  - 语法
    exists ‘表名’
  - 示例
    exists ‘t1’
小结
- 掌握Hbase中的常用DDL表管理命令

知识点14：HBASE命令行：Put

目标：掌握Hbase插入更新的数据命令put的使用
实施
- 功能：插入 / 更新数据【某一行的某一列】
- 语法
  put NS名称:表的名称,‘Rowkey’，‘列族:列’，‘值’
  put ‘ns1:t1’, ‘r1’, ‘cf:c1’, ‘value’
- 示例
  create ‘itcast:t2’,‘cf1’,{NAME=>‘cf3’,VERSIONS => 3}
```
put 'itcast:t2','20210201_001','cf1:name','laoda'
put 'itcast:t2','20210201_001','cf1:age',18
put 'itcast:t2','20210201_001','cf3:phone','110'
```
  put ‘itcast:t2’,‘20210201_001’,‘cf3:addr’,‘shanghai’
  put ‘itcast:t2’,‘20210101_000’,‘cf1:name’,‘laoer’
  put ‘itcast:t2’,‘20210101_000’,‘cf3:addr’,‘bejing’
- 注意
  - put：如果不存在，就插入，如果存在就更新
    put ‘itcast:t2’,‘20210101_000’,‘cf1:name’,‘laosan’
    put ‘itcast:t2’,‘20210101_000’,‘cf3:addr’,‘guangzhou’
    scan ‘itcast:t2’,{VERSIONS=>10}
观察结果
- Hbase表会自动按照Rowkey构建字典有序：逐位比较
- 没有更新和删除：通过插入来代替的，做了标记不再显示
小结
- put的功能及语法是什么？

知识点15：HBASE命令行：Get

目标：掌握Hbase查询的数据命令get的使用
实施
- 功能：读取某个Rowkey的数据
  - 缺点：get命令最多只能返回一个rowkey的数据，根据Rowkey进行检索数据
  - 优点：Get是Hbase中查询数据最快的方式，并不是最常用的方式
    - Rowkey作为唯一索引
- 语法
  get 表名 rowkey [列族,列]
  get ‘ns:tbname’,‘rowkey’
  get ‘ns:tbname’,‘rowkey’,[cf]
  get ‘ns:tbname’,‘rowkey’,[cf] | [cf:col]
- 示例
  get ‘ORDER_INFO’,‘f8f3ca6f-2f5c-44fd-9755-1792de183845’
  get ‘ORDER_INFO’,‘f8f3ca6f-2f5c-44fd-9755-1792de183845’,‘C1’
  get ‘ORDER_INFO’,‘f8f3ca6f-2f5c-44fd-9755-1792de183845’,‘C1:USER_ID’
小结
- get的功能及语法是什么？

知识点16：HBASE命令行：Delete

目标：掌握Hbase的删除数据命令delete的使用
实施
- 功能：删除Hbase中的数据
- 语法
  #删除某列的数据
  delete tbname,rowkey,cf:col
  #删除某个rowkey数据
  deleteall tbname,rowkey
  #清空所有数据
  truncate tbname
- 示例
  delete ‘itcast:t2’,‘20210101_000’,‘cf3:addr’
  deleteall ‘itcast:t2’,‘20210101_000’
  truncate ‘itcast:t2’
小结
- Hbase中的数据如何删除？

知识点17：HBASE命令行：Scan

目标：掌握Hbase的查询数据命令scan的使用
实施
- 功能：根据条件匹配读取多个Rowkey的数据
- 语法
  #读取整张表的所有数据
  scan ‘tbname’//一般不用
  #根据条件查询：工作中主要使用的场景
  scan ‘tbname’,{Filter} //用到最多
- 示例
  hbase> scan ‘t1’, {ROWPREFIXFILTER => ‘row2’, FILTER => "
  (QualifierFilter (>=, ‘binary:xyz’)) AND (TimestampsFilter ( 123, 456))"}
  hbase> scan ‘t1’, {FILTER =>
  org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1, 0)}
```
scan 'itcast:t2'
#rowkey前缀过滤器
scan 'itcast:t2', {ROWPREFIXFILTER => '2021'}
scan 'itcast:t2', {ROWPREFIXFILTER => '202101'}
#rowkey范围过滤器
#STARTROW：从某个rowkey开始，包含，闭区间
#STOPROW：到某个rowkey结束，不包含，开区间
scan 'itcast:t2',{STARTROW=>'20210101_000'}
scan 'itcast:t2',{STARTROW=>'20210201_001'}
scan 'itcast:t2',{STARTROW=>'20210101_000',STOPROW=>'20210201_001'}
scan 'itcast:t2',{STARTROW=>'20210201_001',STOPROW=>'20210301_007'}
```
  - 注意
    - 在Hbase数据检索，尽量走索引查询：按照Rowkey条件查询
    - 尽量避免走全表扫描
    - Hbase所有Rowkey的查询都是前缀匹配
小结
- scan的功能及语法是什么？

知识点18：HBASE命令行：incr & count

目标：了解Hbase的incr和count命令的使用
实施
- incr：自动计数命令
  - 功能：一般用于自动计数的，不用记住上一次的值，直接做自增
    - 需求：一般用于做数据的计数
    - 与Put区别
      - put：需要记住上一次的值是什么
      - incr：不需要知道上一次的值是什么，自动计数
  - 语法
    incr ‘表名’，‘rowkey’,‘列族:列’
    get_counter ‘表名’，‘rowkey’,‘列族:列’
    - 示例
```
create 'NEWS_VISIT_CNT', 'C1'
incr 'NEWS_VISIT_CNT','0000000001_00:00-01:00','C1:CNT',12
get_counter 'NEWS_VISIT_CNT','0000000001_00:00-01:00','C1:CNT'
incr 'NEWS_VISIT_CNT','0000000001_00:00-01:00','C1:CNT'
```
count：统计命令
- 功能：统计某张表的行数【rowkey的个数】
- 语法
  count ‘表名’
- 示例
  count ‘ORDER_INFO’
  - 面试题：Hbase中如何统计一张表的行数最快
    - 方案一：分布式计算程序，读取Hbase数据，统计rowkey的个数
    #在第三台机器启动
    start-yarn.sh
    #在第一台机器运行
    hbase org.apache.hadoop.hbase.mapreduce.RowCounter ‘ORDER_INFO’
```
- 方案二：count命令，相对比较常用，速度中等

  ```
  count 'ORDER_INFO'
  ```
  
- 方案三：协处理器，最快的方式
  
  - 类似于Hive中的UDF，自己开发一个协处理器，监听表，表中多一条数据，就加1
  - 直接读取这个值就可以得到行数了
```
小结
- 了解Hbase的incr和count命令的使用

附录一：Maven依赖

    <repositories>
        <repository>
            <id>aliyun</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
        </repository>
    </repositories>
    <properties>
        <hbase.version>2.1.2</hbase.version>
    </properties>
    <dependencies>
        <!-- Hbase Client依赖 -->
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId>
            <version>${hbase.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-server</artifactId>
            <version>${hbase.version}</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
    </dependencies>

以上是关于分布式NoSQL列存储数据库HBASE的主要内容，如果未能解决你的问题，请参考以下文章