08-leveldb性能优化
Posted anda0109
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了08-leveldb性能优化相关的知识,希望对你有一定的参考价值。
在《02-leveldb入门》中,我们介绍了leveldb的参数,本节就主要讲如何通过调整leveldb的参数来进行性能优化。
levedb支持配置的参数如下:
const Comparator* comparator;比较函数,主要用于key的大小比较。如果传入NULL则使用默认字节序进行比较。
bool create_if_missing = false;如果数据库不存在,则创建。
bool error_if_exists = false;如果数据库存在,返回错误。
bool paranoid_checks = false;如果开启,则在读取数据时进行严格的检查,若发现数据损坏,则立即结束。
Env* env;用户定义环境,用于文件读写、后台线程等,默认Env::Default()。
Logger* info_log;日志对象指针,如果传入为空,则使用默认定义的日志对象。
size_t write_buffer_size = 4 * 1024 * 1024;写缓冲区的大小,对应于memtable的空间大小,会影响并发写入性能,原理部分会进行详细说明。
int max_open_files = 1000;最大打开文件数,也会关系到tablecache的大小.
Cache* block_cache = nullptr;data block缓存,如果为nullptr则数据块不进行缓存。
size_t block_size = 4 * 1024;数据块的大小,默认为4k,一般不需修改。
int block_restart_interval = 16;重启点的间隔,即每16个key进行前缀压缩。
size_t max_file_size = 2 * 1024 * 1024;文件最大大小,根据存储数据大小进行调整。
CompressionType compression = kSnappyCompression;是否对数进行压缩。
const FilterPolicy* filter_policy = nullptr;布隆过滤器,使用布隆过滤器有利于提高查询效率。
结合应用场景,通过调整上述参数来达到性能优化的目的:
01、数据校验paranoid_checks
在leveldb中,数据文件的每个block对应一个4字节的crc校验位。校验位的目的是在读取的时候对数据进行校验,检查其完整性,防止磁盘损坏等原因导致读取的块错误。crc校验的具体方法就是对block内的所有数据计算crc,并进行保存。读取的时候,同样对读出来的数据再次计算crc,比较与写入时候的crc是否一致。
当将paranoid_checks设置为true的时候,代表每次读取都需要对块进行crc校验,如果校验出错则及时抛出错误,不再进行后续的解析块的流程。如果开启了块校验,则会额外消耗CPU运算时间。但在大多数正常的环境下,读取出来的块都是符合校验的,因此也可以不开启校验。但面临的风险就是,万一有数据块损坏,而后续的解析又没有出错,导致读取出来的数据与原始写入的数据不一致。
在leveldb中,如果开启块校验,如果校验出错,则整个块被丢弃。但实际情况是,可能这个块只是损坏了某个数据的几个字节,对大部分数据其实是没有影响的。因此如果开启则会丢弃整个块的数据,而如果不开启校验,则直接进行块解析,对于这种情况,未损坏的数据还是可以解析出来,只会丢弃真正损坏的尽可能少的数据。
因此,paranoid_checks设置为false可以减少读取时的校验流程,从而提升读取性能。但是在数据完整性要求比较严格的情况下,建议开启这个参数。
02、写缓冲区大小write_buffer_size
write_buffer_size对应memtable和imm_memtable的大小。数据写入时会先写入memtable,因此如果write_buffer_size越大,就意味着写缓冲区越大。写缓冲区越大,就意味着写入性能会越高。但同时,如果进程重启,由于缓冲区中的数据丢失,需要从wal中进行恢复,缓冲区越大,意味着需要从wal日志中恢复的数据越多,从而导致启动时间变长。
因此,如果想提升性能,可以尝试将该参数调大。但也必须清楚,调大这个参数带来的影响是什么。
03、最大打开文件数max_open_files
max_open_files指的是leveldb可以打开的最大文件数量,这些打开的文件的meta信息(包括index block、filter block)会缓存起来。当下次需要查询到文件时,直接从缓存中进行快速的定位,以提升性能。如果文件未被缓存,则每次查询到该文件时,都需要重新打开文件,读取磁盘,性能显然是很低的。
因此,如果你的数据量非常大,且条件允许的情况下,可以将该值调大。当然,调大后相应占用的内存空间也会变大。
04、块缓存block_cache
leveldb读取数据是以块为单位的,如果查询某个数据时,在某个块中查询到了,则会将该块缓存在block cache中,以便于下次查询同样的数据可以快速在缓存中读取。这个就类似于缓存热点数据,将最近查询的数据缓存起来,以应对重复查询。
很明显,这个值设置的越大,对性能越有利。但也不尽如此,还是得根据业务场景来看。
05、块大小block_size
block是leveldb读写数据的基本单元,写入时当数据大小达到block_size时,会进行一次刷盘。读取数据时,也是一次读取block_size大小。
因此,这个值也需要根据实际应用场景来设置。如果你存储的key/value数据非常小,则该值可以相应减小。如果你的key/value数据比较大,却将block_size设置的很小则是不合理的,意味着查询一条数据可能需要读取多次磁盘。
06、文件大小max_file_size
max_file_size指的是单个sstable的最大大小。这个同样是和应用场景相关的,如果你的key/value数据很小,则该值也应该相应的调小;如果你的key/value非常大,也需要将该值调大。但是该值也会影响到读写的放大,如果单个文件很大,则在compact时候的读写放大也会加大。
这个具体调整多大,需结合原理、场景以及实际测试进行评估。
07、数据压缩compression
leveldb中支持将数据进行Snappy压缩,Snappy算法的优势是性能高,但压缩比并不一定是最优秀的。由于其性能高,因此比较适用于数据库的压缩。数据以block为单位进行压缩。
对于写磁盘来说,由于数据压缩,同样的数据量会占用更小的磁盘IO,同时也减少了磁盘空间的占用。对于查询来说,读取同样的数据需要更少的IO,但是读取后需要进行解压缩,才能得到最终的数据。这个是典型的用CPU时间换磁盘空间。
因此,对于数据量很大,对存储成本比较敏感的情况,建议开启压缩。而数据量较小,对存储成本不敏感的情况下,建议不采用压缩。
08、过滤器filter_policy
leveldb中提供了布隆过滤器。布隆过滤器用于快速识别一个块中不存在待查询数据的情况,以减少不必要的磁盘读取,提升查询效率。详细见《07-leveldb性能优化(一)》。
以上是关于08-leveldb性能优化的主要内容,如果未能解决你的问题,请参考以下文章