ceph scrub
Posted 厚积_薄发
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ceph scrub相关的知识,希望对你有一定的参考价值。
本文主要介绍 ceph scrub 和 ceph deep scrub 基础知识 和 部分源码。
ceph 用来保证数据完整性的机制(read verify)。 Ceph 的OSD 定期启动scrub线程来扫描部分对象,通过与其他副本比对来发现是否一致,如果存在不一致,抛出异常提示用户手动解决。
具体讲,scrub 以PG 为单位,对于每一个pg,ceph 分析该pg下所有的object, 产生一个类似于元数据信息摘要的数据结构,如对象大小,属性等,叫scrubmap, 比较主与副scrubmap,来保证是不是有object 丢失或者不匹配。
lightscrub(daily)比较object size 和属性。deep scrub (weekly)读取数据部分并通过checksum(这里是CRC32)比较保证数据一致性。
Scrub方式分成两种, classic vs. chunky
Scrub流程需要提取对象的校验信息然后跟其他副本的校验信息对比,这期间被校验对象的数据是不能被修改的,所以write请求会被block. 由于pg可能包含成千上万objects, chunk每一次的比较只取其中一部分object来比较(chunk),这样只block一小部分object的write请求。这是在ceph的Bobtail(v0.56 Jan 1 2013)引入的feature,称为chunky scrub. Classic scrub 没有引入chunk, 会block所有的write请求。
Scrub 流程
$ cephpg scrub 2.9f9 //用户手动触发scrub
1.monitor 进程接收到此指令, in PGMonitor.ccin preprocess_command(), monitor 给pg 所在的主osd 发消息new MOSDScrub, 指示开始干活。
2. 主osd上,_dispatch()-->handle_scrub():
pg->unreg_next_scrub();
pg->scrubber.must_scrub =true; //在每 三个1秒的tick中,调用OSD::sched_scrub(),会检查must_scrub, 然后调用pg->sched_scrub()
pg->scrubber.must_deep_scrub = m->deep ||m->repair;
pg->scrubber.must_repair = m->repair;
pg->reg_next_scrub();
3. 然后进入OSD::sched_scrub() ,如何进入的?
if (!scrub_random_backoff())
sched_scrub();
OSD::tick
4.call PG::sched_scrub()
reserved locally, reserving replicas
最终,所有osd 都reserved成功。
sched_scrub: success, reserved self and replicas
5.call PG::queue_scrub()
state_set(PG_STATE_SCRUBBING);
state_set(PG_STATE_DEEP_SCRUB);
osd->queue_for_scrub(this);--->return scrub_wq.queue(pg); 把pg进入了scrub_wq.
6.OSD.h scrubWQ-> _process()--> pg->scrub()
调用chunky_scrub(), 进入PG::Scrubber的状态机。
在scrubber 构造函数里,初始化state为INACTIVE.
INACTIVE: scrubber.start = hobject_t();
NEW_CHUNK:scrubber.primary_scrubmap= ScrubMap();
确定start和end. scrubber.end = candidate_end;scrubber.block_writes = true;
注意:在COMPARE_MAPS里:scrubber.start = scrubber.end;// schedule another leg of the scrub
// walk the log to find the latest update thataffects our chunk
向replica请求scrub map.
_request_scrub_map() 会newMOSDRepScrub, message 类型是MSG_OSD_REP_SCRUB。看下面从osd 收到此类消息的处理。
BUILD_MAP: build_scrub_map_chunk() // scrubmap包括 object size, attr 和omap attr, 历史版本信息。
进一步call voidPGBackend::be_scan_list(): 调用 store->getattrs( ), 如果是deep,计算CRC32.
WAIT_REPLICAS:通常会wait for replicas to build scrub map 从而跳出循环。等待scrubber.waiting_on 变成零(收到replica map)
最终sub_op_scrub_map 收到所有的replica_map后, --scrubber.waiting_on,清零。
COMPARE_MAPS
scrub_compare_maps(), 1.比对scrubmap:be_compare_scrubmaps().2. dothe pg-type specific scrubbing:_scrub(authmap).
然后清掉 该chunk的block_writes
FINISH
scrub_finish():
class ReplicatedPG 有一个 成员:object_stat_collection_tscrub_cstat
pg::_scrub时, 统计stat
而class pg 有一个成员pginfo,记录的object number 是575.
二者信息不一致,会打印ERR.
然后调用scrub_process_inconsistent()
scrub_unreserve_replicas()
从osd 处理流程:
msgcase is MSG_OSD_REP_SCRUB:
handle_rep_scrub() 进入rep_scrub_wq。
_process() 调用pg->replica_scrub(),做以下事情。
*Chunky behavior:
*
* Wait for last_update_applied tomatch msg->scrub_to as above. Wait
* for pushes(active_pushes) to complete in case of recent recovery. Build a single
* scrubmap of objects that are in the range [msg->start, msg->end).
*/
last_update_applied 和 active_pushes与recovery 流程相关。。。
----------
在handle_scrub时,
pg->scrubber.must_deep_scrub = m->deep || m->repair;
pg->scrubber.must_repair = m->repair;
这说明,要repair, deep_scrub 是必须的。
===keystructure===
structScrubMap
struct object
uint64_t size; //object 大小
bool negative;
map<string,bufferptr> attrs;
__u32 digest;
bool digest_present;
uint32_t nlinks;
set<snapid_t> snapcolls;
__u32 omap_digest;
bool omap_digest_present;
bool read_error;
object() :
// Init invalid size so it won't match if we geta stat EIO error
size(-1), negative(false), digest(0),digest_present(false),
nlinks(0), omap_digest(0),omap_digest_present(false),
read_error(false)
void encode(bufferlist& bl) const;
void decode(bufferlist::iterator& bl);
void dump(Formatter *f) const;
static void generate_test_instances(list<object*>&o);
;
WRITE_CLASS_ENCODER(object)
map<hobject_t,object>objects; //scrubber.primary_scrubmap.objects.size() = 25
map<string,bufferptr> attrs;
eversion_t valid_through;
eversion_t incr_since;
void merge_incr(const ScrubMap &l);
void encode(bufferlist& bl) const;
void decode(bufferlist::iterator& bl, int64_t pool=-1);
void dump(Formatter *f) const;
static void generate_test_instances(list<ScrubMap*>& o);
;
// -- scrub --
struct Scrubber
Scrubber() :
ScrubMap primary_scrubmap;//主osd11
map<pg_shard_t, ScrubMap> received_maps;//副本osds
以上是关于ceph scrub的主要内容,如果未能解决你的问题,请参考以下文章
理解 OpenStack + Ceph : Ceph 的size/min_size/choose/chooseleaf/scrubbing/repair 等概念