大数据clickhouse clickhouse 物化视图使用详解

Posted 逆风飞翔的小叔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据clickhouse clickhouse 物化视图使用详解相关的知识,希望对你有一定的参考价值。

前言

视图这个概念大家并不陌生,在mysql中,视图(view)是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。通过视图,可以展现基表(用来创建视图的表)的部分数据,视图数据来自定义视图的查询中使用的表,使用视图动态生成。

clickhouse 物化视图

ClickHouse 的物化视图是一种查询结果的持久化,它的存在是为了带来查询效率的提升。用户使用物化视图时跟普通的表没有太大区别,其实它就是一张逻辑表,也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来 as select,就是 create 一个 table as select 的写法。

“查询结果集” 范围很宽泛,可以是基础表中部分数据的一份简单拷贝,也可以是多表 join 之后产生的结果或其子集,或者原始数据的聚合指标等等。所以,物化视图不会随着基础表的变化而变化,所以它也称为快照(snapshot);

物化视图与普通视图的区别

普通视图不保存数据,保存的仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。

而物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表。

物化视图优缺点

优点

查询速度快,要是把物化视图这些规则全部写好,它比原数据查询快了很多,总的行数少了,因为都预计算好了。

缺点

  • 本质是一个流式数据的使用场景,是累加式的技术,所以要用历史数据做去重、去核这样的分析,在物化视图里面是不太好用的;
  • 使用场景受限,并不适用于所有的场景;
  • 如果一张表加了好多物化视图,在写这张表的时候,就会消耗很多机器的资源,比如数据带宽占满、存储一下子增加了很多;

物化视图操作使用

1、基本语法

CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT ...

使用create 创建一个物化视图,会创建一个隐藏的目标表来保存视图数据,也可以 TO 表名,保存到 一 张显式的表。没有加 TO 表名,表名默认就是 .inner.物化视图名;

2、前置准备

创建一张测试使用的表

CREATE TABLE hits_test
(
 EventDate Date, 
 CounterID UInt32, 
 UserID UInt64, 
 URL String, 
 Income UInt8
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)
SETTINGS index_granularity = 8192;

给测试表导入一些数据

这里直接从之前导入的一个测试表中导入部分数据

INSERT INTO hits_test 
 SELECT 
 EventDate,
 CounterID,
 UserID,
 URL,
 Income 
FROM hits_v1 
limit 10000;

3、创建物化视图

物化视图建表sql如下

CREATE MATERIALIZED VIEW hits_mv 
ENGINE=SummingMergeTree
PARTITION BY toYYYYMM(EventDate) ORDER BY (EventDate, intHash32(UserID)) 
AS SELECT
UserID,
EventDate,
count(URL) as ClickCount,
sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate >= '2014-03-20'  #设置更新点,该时间点之前的数据可以另外通过
GROUP BY UserID,EventDate;

这个物化视图要做的事情就是:从hits_test表中查询几个字段,同时对其中的两个字段做了聚合计算,并且查询的数据在2014年3月20之后的;

执行完毕后,查看下当前数据库下的表,可以看到视图就以表的形式创建成功了; 

补充说明:

或者可以用下列语法,表 A 可以是一张 mergetree CREATE MATERIALIZED VIEW 物化视图名 TO A AS SELECT FROM B;

不建议添加 populate 关键字进行全量更新

4、为视图导入一些数据

导入增量数据

即源表已经存在数据了,如果继续为源表新增数据,此时物化视图所在表的数据和源表数据保持增量同步;

从前面的描述我们知道,物化视图作为一个逻辑上存在的表,和源表是有内在的联系的,即当我们对源表做一些操作的时候,将会触发对物化视图所在表的数据变化,执行下面的sql数据导入;

INSERT INTO hits_test 
SELECT 
 EventDate,
 CounterID,
 UserID,
 URL,
 Income 
FROM hits_v1 
WHERE EventDate >= '2014-03-23' 
limit 10;

执行完成后,查询下物化视图的数据,可以看到数据已经存在了;

导入历史数据

如果源表已经存在数据了,业务上如果需要物化视图所在的表的数据和源表保持一致,就需要考虑导入源表的历史数据到物化视图所在表中去;

使用下面的sql导入历史数据

INSERT INTO hits_mv
SELECT
 UserID,
 EventDate,
 count(URL) as ClickCount,
 sum(Income) AS IncomeSum
FROM hits_test
WHERE EventDate = '2014-03-20'
GROUP BY UserID,EventDate;

执行完成后,查询下物化视图表,可以看到历史表的数据也成功导入进物化视图表了;

物化视图的总结

1、关于创建物化视图的限制

  • 必须指定物化视图的 engine 用于数据存储;
  • TO [db].[table]语法的时候,不得使用 POPULATE;
  • 查询语句(select)可以包含下面的子句: DISTINCT, GROUP BY, ORDER BY, LIMIT…
  • 物化视图的 alter 操作有些限制,操作起来不大方便;
  • 若物化视图的定义使用了 TO [db.]name 子语句,则可以将目标表的视图 卸载DETACH 再装载 ATTACH;

2、关于物化视图的数据更新

  • 物化视图创建好之后,若源表被写入新数据,则物化视图数据也会同步更新;
  • 物化视图不支持同步删除,若源表的数据不存在(删除了),则物化视图数据扔被保留;
  • 物化视图是一种特殊的数据表,可以使用 show tables 查看;
  • POPULATE 关键字决定了物化视图的更新策略;
  • 若有 POPULATE 则在创建视图的过程会将源表已经存在的数据一并导入,类似于create table ... as ;
  • 若无 POPULATE 则物化视图在创建之后没有数据,只会在创建只有同步之后写入源表的数据;
  • clickhouse 官方并不推荐使用 POPULATE,因为在创建物化视图的过程中同时写入的数据不能被插入物化视图;

以上是关于大数据clickhouse clickhouse 物化视图使用详解的主要内容,如果未能解决你的问题,请参考以下文章

大数据ClickHouse进阶:ClickHouse的Join子句

大数据ClickHouse进阶(二十三):ClickHouse用户配置

大数据ClickHouse进阶(二十四):ClickHouse权限管理

大数据ClickHouse(二十):ClickHouse 可视化工具操作

大数据ClickHouse进阶:ClickHouse使用场景和集群安装

大数据ClickHouse进阶(十九):ClickHouse字典的数据源