Oracle SCN机制解析

Posted 2020-09-17 bolang100

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Oracle SCN机制解析相关的知识，希望对你有一定的参考价值。

SCN（System Chang Number）作为oracle中的一个重要机制，在数据恢复、Data Guard、Streams复制、RAC节点间的同步等各个功能中起着重要作用。理解SCN的运作机制，可以帮助你更加深入地了解上述功能。

在理解SCN之前，我们先看下oracle事务中的数据变化是如何写入数据文件的：

1、事务开始；

2、在buffer cache中找到需要的数据块，如果没有找到，则从数据文件中载入buffer cache中；

3、事务修改buffer cache的数据块，该数据被标识为“脏数据”，并被写入log buffer中；

4、事务提交，LGWR进程将log buffer中的“脏数据”写入redo log file中；

5、当发生checkpoint，CKPT进程更新所有数据文件的文件头中的信息，DBWn进程则负责将Buffer Cache中的脏数据写入到数据文件中。

经过上述5 个步骤，事务中的数据变化最终被写入到数据文件中。但是，一旦在上述中间环节时，数据库意外宕机了，在重新启动时如何知道哪些数据已经写入数据文件、哪些没有写呢（同样，在DG、streams中也存在类似疑问：redo log中哪些是上一次同步已经复制过的数据、哪些没有）？SCN机制就能比较完善的解决上述问题。

SCN是一个数字，确切的说是一个只会增加、不会减少的数字。正是它这种只会增加的特性确保了Oracle知道哪些应该被恢复、哪些应该被复制。

总共有4 中SCN：系统检查点（System Checkpoint）SCN、数据文件检查点（Datafile Checkpoint）SCN、结束SCN（Stop SCN）、开始SCN（Start SCN）。其中其面3中SCN存在于控制文件中，最后一种则存在于数据文件的文件头中。

在控制文件中，System Checkpoint SCN是针对整个数据库全局的，因而之存在一个，而Datafile Checkpoint SCN和Stop SCN是针对每个数据文件的，因而一个数据文件就对应在控制文件中存在一份Datafile Checkpoint SCN和Stop SCN。在数据库正常运行期间，Stop SCN(通过视图v$datafile的字段last_change#可以查询)是一个无穷大的数字或者说是NULL。

在一个事务提交后（上述第四个步骤），会在redo log中存在一条redo记录，同时，系统为其提供一个最新的SCN（通过函数 dbms_flashback.get_system_change_number可以知道当前的最新SCN），记录在该条记录中。如果该条记录是在 redo log被清空（日志满做切换时或发生checkpoint时，所有变化日志已经被写入数据文件中），则其SCN被记录为redo log的low SCN。以后在日志再次被清空前写入的redo记录中SCN则成为Next SCN。

当日志切换或发生checkpoint（上述第五个步骤）时，从Low SCN到Next SCN之间的所有redo记录的数据就被DBWn进程写入数据文件中，而CKPT进程则将所有数据文件（无论redo log中的数据是否影响到该数据文件）的文件头上记录的Start SCN(通过视图v$datafile_header的字段checkpoint_change#可以查询)更新为Next SCN，同时将控制文件中的System Checkpoint SCN（通过视图v$database的字段checkpoint_change#可以查询）、每个数据文件对应的Datafile Checkpoint（通过视图v$datafile的字段checkpoint_change#可以查询）也更新为Next SCN。但是，如果该数据文件所在的表空间被设置为read-only时，数据文件的Start SCN和控制文件中Datafile Checkpoint SCN都不会被更新。

那系统是如何产生一个最新的SCN 的？实际上，这个数字是由当时的timestamp转换过来的。每当需要产生一个最新的SCN到redo记录时，系统获取当时的timestamp，将其转换为数字作为SCN。我们可以通过函数SCN_TO_TIMESTAMP（10g以后）将其转换回timestamp：

SQL> select dbms_flashback.get_system_change_number, SCN_TO_TIMESTAMP(dbms_flashback.get_system_change_number) from dual;

GET_SYSTEM_CHANGE_NUMBER

------------------------

SCN_TO_TIMESTAMP(DBMS_FLASHBACK.GET_SYSTEM_CHANGE_NUMBER)

---------------------------------------------------------------------------

2877076756

17-AUG-07 02.15.26.000000000 PM

也可以用函数timestamp_to_scn将一个timestamp转换为SCN：

SQL> select timestamp_to_scn(SYSTIMESTAMP) as scn from dual;

SCN

----------

2877078439

最后，SCN除了作为反映事务数据变化并保持同步外，它还起到系统的“心跳”作用——每隔3秒左右系统会刷新一次系统SCN。

下面，在简单介绍一下SCN如何在数据库恢复中起作用。

数据库在正常关闭（shutdown immediate/normal）时，会先做一次checkpoint，将log file中的数据写入数据文件中，将控制文件、数据文件中的SCN（包括控制文件中的Stop SCN）都更新为最新的SCN。

数据库异常/意外关闭不会或者只更新部分Stop SCN。

当数据库启动时，Oracle 先检查控制文件中的每个Datafile Checkpoint SCN和数据文件中的Start SCN是否相同，再检查每个Datafile Checkpoint SCN和Stop SCN是否相同。如果发现有不同，就从Redo Log中找到丢失的SCN，重新写入数据文件中进行恢复。具体的数据恢复过程这里就不再赘述。

SCN作为Oracle中的一个重要机制，在多个重要功能中起着“控制器”的作用。了解SCN的产生和实现方式，帮助DBA理解和处理恢复、DG、Streams复制的问题。

最后提一句，利用SCN机制，在Oracle10g、11g中又增加了一些很实用的功能——数据库闪回、数据库负载重现等。

首先这里我们先介绍四个SCN概念。
1、系统检查点scn
当一个检查点动作完成后，Oracle就把系统检查点的SCN存储到控制文件中。
select checkpoint_change# from v$database；
2，数据文件检查点scn
当一个检查点动作完成后，Oracle就把每个数据文件的scn单独存放在控制文件中。
select name,checkpoint_change# from v$datafile；
3，启动scn
Oracle把这个检查点的scn存储在每个数据文件的文件头中，这个值称为启动scn，因为它用于在数据库实例启动时，
检查是否需要执行数据库恢复。
select name,checkpoint_change# from v$datafile_header
4、终止scn
每个数据文件的终止scn都存储在控制文件中。
select name,last_change# from v$datafile

以下条件需要使用using backup controlfile
1）、使用备份控制文件
2）、重建resetlogs控制文件,如果重建立noresetlogs不必要使用using backup controlfile

2、alter database open resetlog
指定RESETLOGS将重设当前LOG sequence number为1，抛弃所有日志信息。
以下条件需要使用resetlog
1）在不完全恢复（介质恢复）
2）使用备份控制文件
使用resetlogs打开数据库后无必完整地备份一次数据库。
3、create controlfile resetlogs/noresetlogs
1）．用Noresetlogs重建控制文件时，控制文件中 datafile Checkpoint来自Online logs中的Current log头
2）．用Resetlogs重建控制文件时，控制文件中datafile Checkpoint来自各数据文件头。

当system scn,datafile scn,start scn 不全相等，需要介质恢复，如果stopscn null需要实例恢复
resetlogs抛弃所有在上一次恢复没有用到的日志信息，确保不被重新用与恢复。
1、系统正常关闭：
system scn=datafile scn=start scn=stop scn
1)system scn=datafile scn=start scn，不需要介质恢复
2)stopscn not null,不需要实例恢复
2、系统异常关闭：
system scn=datafile scn=start scn，stop scn null
1)system scn=datafile scn=start scn，不需要介质恢复
2)stopscn null,需要实例恢复
3、旧数据文件
system scn=datafile scn>start scn，stop scn null/notnull
1)system scn=datafile scn>start scn，需要介质恢复成system scn=datafile scn=start scn
2)stopscn null,需要实例恢复，not null 不需要实例恢复
4、备份控制文件
system scn=datafile scn<=start scn(当数据文件为旧的相等)，stop scn notnull/null
1)system scn=datafile scn<=start scn，需要使用using backup controlfile介质恢复成system scn=datafile scn=start scn=current log scn(当前日志最大SCN)
2)为保证上一次恢复没有用到log日志不被使用，必须resetlogs
5、重建noresetlogs控制文件
控制文件中 datafile Checkpoint来自Online logs中的Current log头
current log scn=system scn=datafile scn>=start scn,stop scn not null/null
1)current log scn=system scn=datafile scn>=start scn，需要介质恢复成system scn=datafile scn=start scn=redolog scn(当前日志最大SCN),stop scn not null
2)stopscn not null 不需要实例恢复
6、重建resetlogs控制文件
控制文件中datafile Checkpoint来自各数据文件头。
system scn>=datafile scn=start scn,stop scn not null/null
1)system scn>=datafile scn=start scn，需要使用using backup controlfile介质恢复成system scn=datafile scn=start scn(当前日志最大SCN),stop scn not null
2)stop notnull，因为SCN已经为redolog scn，log已经不能使用，必须resetlogs

1、SCN的介绍

2、SCN的工作机制

3、SCN的增加

4、其他的SCN

5测试

6小结

7问题

1、SCN的介绍

Oracle中的SCN有下面几种：

1)系统检查点scn(v$database(checkpoint_change#))

当一个检查点动作完成之后，Oracle就把系统检查点的SCN存储到控制文件中

select checkpoint_change# from v$database;

2)数据文件检查点scn (v$datafile(checkpoint_change#))

当一个检查点动作完成之后，Oracle就把每个数据文件的scn单独存放在控制文件中

select name,checkpoint_change# from v$datafile;

3)数据文件终止scn (v$datafile(last_change#))

每个数据文件的终止scn都存储在控制文件中。在正常的数据库操作过程中，所有正处于联机读写模式下的数据文件的终止scn都为null,异常关闭后的Stop SCN,也为NULL.

select name,last_change# from v$datafile;

4)数据文件启动scn (v$datafile_header(checkpoint_change#)

Oracle把这个检查点的scn存储在每个数据文件的文件头中，这个值称为启动scn，因为它用于在数据库实例启动时，检查是否需要执行数据库恢复

select name,checkpoint_change# from v$datafile_header;

2、SCN的工作机制

1)在数据库打开并运行之后，控制文件中的系统检查点scn、控制文件中的数据文件检查点scn和每个数据文件头中的启动scn都是相同的

2 )控制文件中的每个数据文件的终止scn都为null

3) NORMAL或IMMEDIATE关闭数据库的过程中，系统会执行一个检查点动作，这时所有数据文件的终止scn都会设置成数据文件头中的那个启动scn的值。

4)在数据库重新启动的时，Oracle将执行两次检查

◆看数据文件头中的ckpt计数器(v$datafile_header.checkpoint_count)是否与对应控制文件中的ckpt计数器(v$datafile.)一致。若相等，进行第二次检查

◆比较文件头中的启动scn和对应控制文件中的终止scn进行比较，如果终止scn等于启动scn，则不需要对那个文件进行恢复

5)数据库打开之后，存储在控制文件中的数据文件终止scn的值再次被更改为null，这表示数据文件已经打开并能够正常使用了

注：当ABORT强制关闭数据库时不进行检查点处理，所以终止scn仍然为无穷大。在下次启动期间，发现启动scn和终止scn不同，需要进行线程恢复。

3、SCN的增加

1) SCN(System Change Number)只要数据库被修改，就会+1，而不是一定要进行checkpoint，例如DML的发生即使没有提交也会使SCN+1.(哪些情况下SCN会发生变化?)

注：SCN增加并不代表会在数据文件头中表现出来，而是需要等到checkpoint执行后才写入(当然可能已经增加了很多)

2)如果一个DML导致产生事务，则会产生一个SCN。这个意思是说如果一个事务包含多个dml，则只有第一个初始产生事务的dml产生scn，提交的时候又是一个scn，如果一个事务只有一个dml，那看起来就是dml产生一个scn，提交或者回滚产生一个scn。

3) Oracle10g内部的SCN会默认不管有没有动作，每隔3s自动增加一次。其他需要增加的情况则再加。

4)只有ckpt进程才会修改文件头中的checkpoint计数器和SCN，DBWR只会修改数据块，即ckpt通知dbwr写数据文件，写完之后ckpt更新控制文件和数据文件头。此时若DBWR发现数据块的log block还没有被写入日志文件，则在dbwr写块之前通知lgwr把log buffer中的日志写入log文件。

注：总结一下，日志切换必定触发ckpt，但ckpt不一定会触发lgwr，但是一定会触发dbwr

4、其他的SCN

1)日志文件头中包含了Low scn、Next scn，表示所给日志文件包含有从Low scn到Next scn的redo record. (如何查看? REDO SCN)

注：当系统运行时，日志文件的Next scn同样为无穷大。而且需要注意：在恢复时定位到底使用哪个日志文件的时候，并不是用数据文件中的low scn去框，也不是只要在日志文件的low scn and next scn之间就利用该日志文件。而是在数据文件头中有RBA的记录，RBA包含了日志序号Sequence#、block number、slot number。这样可以直接定位到日志文件（归档日志文件）和具体的位置。

在确定了哪个数据文件必须redo后,oracle会比较change vector（向量）中的SCN和数据文件数据块中的SCN,如果change vector的SCN小于数据块的scn,则跳过此change vector,否则应用redo.

2)数据块中的SCN

data block里面的SCN是当block被更改的时候的SCN，而数据文件有那么多block，自然不同的block有不同的SCN，block中存在block SCN和ITL中的commit SCN。block SCN又在块头和块位都有，若不一致意味着block损坏。而ITL中的commit SCN则跟consistent gets and delay block cleanout有关。(Block SCN如何查看?)

3) v$database中的checkpoint_change#和dbms_flashback.get_system_change_number不同。前者是作为数据库的最后一次checkpoint是的SCN，而后者是系统的最新SCN，所以一般后者都会比前者大，而当刚做完checkpoint时候两者会差不多。(Checkpoint的触发机制?)

4)当begin backup命令发出后，相关数据文件的checkpoint scn被冻结(以及状态标志被改变)，其他一切照旧。例如：日志切换时checkpoint count正常递增/检查点照常写文件，自然文件中的数据块内的各种scn也照常递增。

5测试:

A.正常关闭,mount数据库

SQL> col system_scn format 999999999999999999

SQL> col datafile_scn format 999999999999999999

SQL> col start_scn format 999999999999999999

SQL> col stop_scn format 999999999999999999

SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn, scn, re rownum=1) c;

b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,‘null‘,b.last_change#) stop_scnp_scn

from v$database a,

(select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,

(select checkpoint_change# from v$datafile_header where rownum=1) c;

SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN

------------------- ------------------- ------------------- ----------------------------------------

2696048203982 2696048203982 2696048203982 2696048203982

上述查询结果表明:

结束SCN都是跟启动SCN是一样的，这样，当数据库open的时候就可以不用recover了。

把数据库打开open

SQL> alter database open;

　　Database altered.

SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,

2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,‘null‘,b.last_change#) stop_scn

3 from v$database a,

4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,

5 (select checkpoint_change# from v$datafile_header where rownum=1) c;

SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN

------------------- ------------------- ------------------- ----------------------------------------

2696048203983 2696048203983 2696048203983 null

系统检查点scn增加了1。

控制文件中的数据文件检查点scn和数据文件的文件头中的启动scn也都各自增加了1。

控制文件中的数据文件终止scn，变为NULL.

C.对系统触发检查点

SQL> alter system checkpoint;

　　System altered.

SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,

2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,‘null‘,b.last_change#) stop_scn

3 from v$database a,

4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,

5 (select checkpoint_change# from v$datafile_header where rownum=1) c;

SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN

------------------- ------------------- ------------------- ----------------------------------------

2696048204212 2696048204212 2696048204212 null

系统检查点scn发生变化，增加不止1,这与检查点产生机制有关。

D异常关闭启动！没有将Start SCN同步给Stop SCN,造成不一致.需要Instance Recovery

SQL> shutdown abort

SQL> startup mount

Database mounted.

SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,

2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,‘null‘,b.last_change#) stop_scn

3 from v$database a,

4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,

5 (select checkpoint_change# from v$datafile_header where rownum=1) c;

SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN

------------------- ------------------- ------------------- ----------------------------------------

2696048204212 2696048204212 2696048204212 null

按理说在数据文件启动之前End SCN的值不应为NULL,但这里查出却为NULL ,之前的理解是有误的,在Shutdown Abort后, Stop SCN仍为NULL. (异常关闭后的Start Mount,在打开之前要做Instance Recovery)

SQL> alter database open;

Database altered.

Vi alert.log

alter database open

Mon Feb 1 14:27:05 2010

Beginning crash recovery of 1 threads

Mon Feb 1 14:27:05 2010

Started first pass scan

Mon Feb 1 14:27:05 2010

Completed first pass scan

61 redo blocks read, 30datablocks need recovery

Mon Feb 1 14:27:05 2010

Started recovery at

Thread 1: logseq 71, block 7466, scn 0.0

Recovery of Online Redo Log: Thread 1 Group 1 Seq 71 Reading mem 0

Mem# 0 errs 0: /opt/oracle/oradata/mydb/redo01.log

Mon Feb 1 14:27:05 2010

Completed redo application

Mon Feb 1 14:27:05 2010

Ended recovery at

Thread 1: logseq 71, block 7527, scn 627.3103729640

30 data blocks read, 30 data blocks written, 61 redo blocks read

Crash recovery completed successfully

完成在线日志应用

SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn, scn,

b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,‘null‘,b.last_change#) stop_scnp_scn

3 from v$database a,

4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,

5 (select checkpoint_change# from v$datafile_header where rownum=1) c;

SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN

------------------- ------------------- ------------------- ----------------------------------------

2696048224234 2696048224234 2696048224234 null

6小结

1、系统正常关闭：

　　1)system checkpoint scn = datafile checkpoint scn = start scn，不需要介质恢复

　　2)stop scn is not null = start SCN,不需要实例恢复

2、系统异常关闭：

　　1)system checkpoint scn = datafile checkpoint scn = start scn，不需要介质恢复

　　2)stop scn is null,需要实例恢复

3、旧数据文件

　　会使得：system checkpoint scn = datafile checkpoint scn > start scn，stop scn is null/ is not null

　　1)system checkpoint scn = datafile checkpoint scn > start scn

需要介质恢复成system checkpoint scn = datafile checkpoint scn = start scn

2)stop scn is null,需要实例恢复，is not null不需要实例恢复

4、备份控制文件

　　会使得：system checkpoint scn = datafile checkpoint scn <= start scn(当数据文件为旧且和旧控制文件为同一版本的时候相等，如果数据文件是当前的数据文件则是小于)，stop scn notnull/null

1)system checkpoint scn = datafile checkpoint scn <= start scn，需要使用using backup controlfile介质恢复成system scn = datafile scn = start scn = current log scn(当前日志最大SCN)

2)为保证上一次恢复没有用到log日志不被使用，必须在恢复完成后用resetlogs打开数据库

5、以noresetlogs方式重建控制文件

　　在以这种方式重建控制文件时，控制文件中的datafile checkpoint scn来自于Online logs中的Current log头，因此

　　current log scn = system checkpoint scn = datafile scn >= start scn(如果数据文件为备份而来则会大于start SCN，如果是当前的则为相等于start SCN), stop scn not null/null

1)current log scn = system checkpoint scn = datafile checkpoint scn >= start scn，因此需要介质恢复成system checkpoint scn = datafile scn = start scn = redolog scn(当前日志最大SCN)　

2)stopscn is not null不需要实例恢复

6、以resetlogs方式重建控制文件

　　控制文件中datafile checkpoint scn来自各数据文件头(start scn),而且system checkpoint scn会归为0

　　system checkpoint scn < datafile checkpoint scn = start scn,stop scn not null/null

1)system checkpoint scn < datafile checkpoint scn = start scn，需要使用using backup controlfile介质恢复成system checkpoint scn = datafile checkpoint scn = start scn(当前日志最大SCN),stop scn not null

2) stopscn is not null不需要实例恢复,而且因为SCN已经为redolog scn，log已经不能使用，必须用resetlogs方式打开数据库

7问题:

7.1数据库启动过程的两个比较.

v$datafile_header.checkpoint_count VS 对应控制文件中的ckpt计数器(v$datafile.)在哪个视图?

7.2 哪些情况下SCN会发生变化?这几个SCN如何变化?

7.3 如何查看REDO SCN?

7.4 Block SCN如何查看?

7.5 Checkpoint的触发机制?

下面这些操作将会触发checkpoint事件：

1) 日志切换，通过ALTER SYSTEM SWITCH LOGFILE。(之前的资料说这里，发出的应是增量检查点？是的,日志切换只能产生增量检查点)

2) DBA发出checkpoint命令，通过ALTER SYSTEM checkpoint。

3) 对数据文件进行热备时，针对该数据文件的checkpoint也会进行，ALTER TABLESPACE TS_NAME BEGIN BACKUP/END BACKUP。