利用Grafana与系统表监控ClickHouse查询

Posted 刘元涛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用Grafana与系统表监控ClickHouse查询相关的知识,希望对你有一定的参考价值。

前言

我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。

开启查询日志

打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入

<log_queries>1</log_queries>

 再去各个ClickHouse实例的config.xml中检查一下查询日志的配置,以下是默认启用的配置:

<query_log>
    <database>system</database>
    <table>query_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_log>

<trace_log>
    <database>system</database>
    <table>trace_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</trace_log>

<query_thread_log>
    <database>system</database>
    <table>query_thread_log</table>
    <partition_by>toYYYYMM(event_date)</partition_by>
    <flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_thread_log>

其中,partition_by表示查询日志表的分区列,语法与普通建表时相同,默认按月分区。flush_interval_milliseconds则表示日志刷入表中的周期,默认7.5秒。按需修改后,重启ClickHouse实例,就会自动在system库中创建对应的系统表,并写数据。

关于查询日志表(以及其他系统表)中各列的含义,可参见官方文档,非常详细。

创建分布式表、设定TTL

在集群中执行以下语句,创建query_log的分布式表query_log_all,这样才能正确统计所有节点的查询日志。

CREATE TABLE IF NOT EXISTS system.query_log_all
ON CLUSTER sht_ck_cluster_pro
AS system.query_log
ENGINE = Distributed(sht_ck_cluster_pro,system,query_log,rand());

查询日志表没有自动过期功能,为了防止日志太多占用大量磁盘空间,可以手动为每张query_log表设定TTL。建议也给其他系统日志表配置上TTL。

ALTER TABLE system.query_log
MODIFY TTL event_date + INTERVAL 15 DAYS;

下载、安装、启动Grafana

wget https://dl.grafana.com/oss/release/grafana-6.7.4-1.x86_64.rpm
yum -y localinstall grafana-6.7.4-1.x86_64.rpm
service grafana-server start

访问<grafana_ip>:3000即可。

安装与添加ClickHouse DataSource

ClickHouse DataSource是由Vertamedia开发的第三方插件(这家公司也开源了负载均衡组件CHProxy)。直接用grafana-cli安装之。

grafana-cli plugins install vertamedia-clickhouse-datasource

然后在Grafana中添加数据源。

配置Grafana Dashboard

以慢查询为例。先添加一个Query,指定库名、表名、日期列和时间列。

然后点击Go to Query按钮,写入如下SQL语句。

SELECT
  query,
  avg(query_duration_ms) AS duration_avg,
  max(query_duration_ms) AS duration_max,
  count() AS query_count
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0
GROUP BY query
ORDER BY duration_max DESC
LIMIT 10

$table和$timeFilter都是ClickHouse DataSource预置的宏,可以参见上面给出的传送门。然后,将Format as选项设定为Table,就可以看到指定时间段内的慢查询top 10了。截图会涉及到敏感业务数据,就不贴了。

再举个例子,绘制QPS的折线图,SQL语句如下。

$rate(count() AS q)
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0

$rate是什么鬼?这个是ClickHouse DataSource提供的内置函数,上面的SQL语句在实际请求时会转化成以下的语句。

SELECT t, 
q / runningDifference(t / 1000) qRate 
FROM ( 
  SELECT (intDiv(toUInt32(event_time), 5) * 5) * 1000 AS t, 
  count() AS q 
  FROM system.query_log_all 
  WHERE event_date >= toDate(1592905770) 
  AND event_time >= toDateTime(1592905770)  
  AND type = 2 
  AND positionCaseInsensitive(query,'%system.%') = 0 
  GROUP BY t 
  ORDER BY t
)
可见是先以5秒步长分组并统计查询数,再借助runningDifference()函数推导出两行之间时间的增量,进而得到QPS。在Grafana面板中可以通过调整"Resolution"参数来修改步长,如设定为1/4,步长就是20秒。

 

 

以上是关于利用Grafana与系统表监控ClickHouse查询的主要内容,如果未能解决你的问题,请参考以下文章

利用Grafana与系统表监控ClickHouse查询

利用Grafana与系统表监控ClickHouse查询

Clickhouse + Grafana 可视化监控

clickhouse 20.x 与prometheus + grafana+ckman的集成

Clickhouse 集群监控(Prometheus+Grafana)

20210810-基于CentOS7/Linux Grafana 集成 Prometheus并实现对ClickHouse监控