时序数据库 InfluxDB 2.2 初探
Posted sp42a
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了时序数据库 InfluxDB 2.2 初探相关的知识,希望对你有一定的参考价值。
时序数据库是什么?这里就不科普了,敬请百度一下。时序数据是写多读少的场景。
InfluxDB 用 Go 语言写,开源,应该还不错。但缺点是:单机版是免费开源的,集群版本是要收费的。
安装
分别下载数据库 Server 和命令行工具 CLI,两个独立的程序。安装后之后,执行 influx 启动 Server,注意暴露 8086 默认端口。
influx
这是临时启动的,我们改为守护进程执行的,
nohup ./influx &
然后对 Server 进行相应的配置,有 WebUI 的界面,访问其 8086 Web 服务即可,如下图所示。
设置初始用户,都是必填项。
初始化成功。
Java 客户端调用
我们的应用程序乃 Java,于是搞一下:
<dependency>
<groupId>com.influxdb</groupId>
<artifactId>influxdb-client-java</artifactId>
<version>6.1.0</version>
</dependency>
Measurement
摘抄网友的:
在关系数据库中,我们都是在表 table中查询数据,按照惯性思维的理解,也会把 influxdb 的 measurement 理解成表,然后查询的时候自然的会带上
_measurement
,然而实际查询中这个仅仅作为 influxdb 的查询条件,其实是一个可有可无的条件,即使没有依然能正确查询。但是在进行入写的时候是必须要 measurement 的。从这里也可以看出,influxdb 的 measurement 跟关系数据库中的 table 不完全是一个概念,在 influxdb 中 measurement 只是在 bucket 中作为一种分组。influxdb 其实只有一种数据结构,所以 measurement 也是唯一的,measurement 会在写入数据时候自动创建,如果数据不存在了,measurement 也就自然消失了。
简单对比下两者:
写入数据
写入工具可支持:influx 命令行或者 API 客户端,例如我们写 Java 的就是官方提供 Java-client。写入方式可支持 Line protocol 数据格式或者 Java 实体 Bean,推荐 Java Bean 比较直观。
异步/同步
Java 客户端写入数据可以分为同步写入和异步写入两种。
WriteApiBlocking writeApi = client.getWriteApiBlocking(); // 阻塞,即同步
WriteApi makeWriteApi = client.makeWriteApi(); // 非阻塞,即异步
异步性能更好,达到以下两种情况中的任意一种即可写入一次数据库:
- 定时器 flush 操作,如一秒一次
- 写入数据达到 5000 笔,写入一次,控制这个数量为
batch_size
(可调整)
未写入数据之前,数据都积压在 buffer 缓存中。
// 写入,指定精度为 ns 纳秒
writeApi.writeMeasurement(WritePrecision.NS, vo);
浏览数据
数据库工具我们会想到 NativeCat 之类的,但 influx 的呢?请放心有官方提供的 UI 工具,而且做得很精美,用浏览器访问部署位置,如 http://localhost:8086,点击 Data Explorer 即可浏览。
另外有 InfluxDB Studio 工具,但只有 Windows 版。
Flux
Flux(flux: n. 流量;变迁;不稳定;流出; vt. 使熔融;用焊剂处理; vi. 熔化;流出) 是 InfluxDB 2.0 引入的一门查询语言,新版本 v2 抛弃了 v1 的类似 SQL 语法,完全使用自制的查询方式,称为"Flux"。每个 Flux 查询都需要包含以下部分:1.数据源,2时间范围,3数据过滤器。
数据源:bucket 标识数据库的名称
from(bucket:"example-bucket")
时间范围,stop 不是必须的,时间范围可以是具体的时间(UTC 时间)或者时间戳,也可以是相对时间范围,如-1h
表示过去1小时内的数据(相对于当前时间),可选单位有 s,m(分钟),h,d,mo(月),y
|> range(start: -1h, stop: -10m)
查询时间序列数据时,Flux 需要一个时间范围。"无界"查询非常占用大量资源,作为一种保护措施,Flux 不会在没有指定范围的情况下查询数据库。
数据过滤器,多个过滤器可以用 and
或 or
连接,或者另起一个 filter
|> filter(fn: (r) =>)
filter 的可选值有:_measurement ,_field ,_value,_time,某个 tag 的名称
生成查询数据(可选)
|> yield()
输出的表一般包含:_start, _stop, _field,_value, _measurement,_time,[tag名称]
字段
每个 flux 语法都以 “from” 开始,其他每个部分都需要以" |>
"开头。
关于 Tag Field
开始使用 Flux 时,发现连简单的 SQL where
指定条件查询都做不到,很是失望!问了很多也不知道,后来看英文文档有 tag 才启发,是没有指定 tag 的缘故。influx 中,区分普通 field 和 tag field,前者不进行索引,于是不能被搜索,后者则可。所以当你要搜索某个字段时,必须指定其为 tag field,如下面的 uavId
字段
/**
* 电池、电压
*/
@Measurement(name = "Power")
public class Power extends InfluxValueObject
@Column(tag = true)
public String uavId;
@Column
public Integer batteryRemaining;
@Column
public Float voltageBattery;
如果建立过多索引,写入、查询性能都会下降。
理解 Influx DB 的 CRUD
这仁兄说的好:
InfluxDB是针对时间序列数据进行了优化的数据库。这些数据通常来自分布式传感器组,来自大型网站的点击数据或金融交易列表等。
这个数据有一个共同之处在于它只看一个点没什么用。一个读者说,在星期二UTC时间为12:38:35时根据他的电脑CPU利用率为12%,这个很难得出什么结论。只有跟其他的series结合并可视化时,它变得更加有用。随着时间的推移开始显现的趋势,是我们从这些数据里真正想要看到的。另外,时间序列数据通常是一次写入,很少更新。
结果是,由于优先考虑create和read数据的性能而不是update和delete,InfluxDB不是一个完整的CRUD数据库,更像是一个CR-ud。
两种 function
第一种: aggregate function;第二种:selector function。这两类函数最重要的区别就是,aggregate funciton 是通过聚合返回一条数据记录;selector funciton 则是返回一组原始数据。这两类函数有些地方可以混用,有时候又不可以。
类似 SQL 的 OR
或者 IN
查询
- 在 filter 中使用
or
连接:|> filter(fn: (r) => r.eq == "1" or r.eq == "2")
- 使用
contains
函数:在 from 前面定义数组fields = ["1", "2"]
,然后在 filter 中使用|> filter(fn: (r) => contains(value: r.eq, set: fields))
数据备份
参考:https://www.sunzhongwei.com/influxdb-20-data-backup-recovery-exportimport?from=bottom
以上是关于时序数据库 InfluxDB 2.2 初探的主要内容,如果未能解决你的问题,请参考以下文章
时序数据库连载系列: 时序数据库一哥InfluxDB之存储机制解析