TSM日常维护
Posted 涅槃之路
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TSM日常维护相关的知识,希望对你有一定的参考价值。
自动启动TSM服务器
你可以将服务器配置为在系统启动时自动启动,要配置TSM服务器,请使用rc.dsmserv脚本。
rc.dsmserv脚本位于/opt/tivoli/tsm/server/bin目录中。
如果未使用向导来配置IBM TSM服务器,请在/etc/inittab文件中为要自动启动的每个服务器都添加一个条目。
如果实例所有者为tsminst1并且服务器实例目录为/home/tsminst1/tsminst1,那么将以下条目添加到/etc/inittab中的一行上:
tsm1:3:once:/opt/tivoli/tsm/server/bin/rc.dsmserv -u tsminst1 -i /home/tsminst1/tsminst1 -q >/dev/console 2>&1
暂停服务器
暂停服务器时,所有进程都会突然停止,并且会取消客户机会话,即使它们未完成也如此。重新启动服务器后,将会回滚所有进行中事务。
要在不严重影响服务器的管理和客户机节点活动的情况下关闭服务器,必须执行以下操作:
1.通过发出DISABLE SESSIONS 命令,禁用服务器以防止启动新的客户机节点会话。
2.通知所有现有管理会话和客户机节点会话你计划关闭服务器。
3.通过发出CANCEL SESSION命令和相关联的会话号,取消所有现有管理会话或客户机节点会话。使用QUERY SESSION命令可以获取会话号。
4.通过使用QUERY PROCESS命令了解是否有任何其他进程在运行,请使用CANCEL PROCESS命令将其取消。
5.使用HALT命令暂停服务器以关闭所有服务器操作。
服务器作为后台进程运行时将其停止
如果无法使用管理客户机连接至服务器但是想要停止服务器,可使用以下步骤来取消进程:
1.cat /instance_dir/dsmserv.v6lock查找TSM服务器的正确进程标识。
2.使用KILL命令停止进程
更改TSM服务器的主机名
1.停止系统上正在运行的任何TSM服务器。
2.通过使用操作系统定义的过程来更改主机名。
3.通过系统上的root用户标识,发出以下命令:
db2set -g DB2SYSTEM=newhostname
4.通过发出以下命令验证DB2SYSTEM值是否已更改:
db2set -all
5.在instance directory/sqllib目录中,找到db2nodes.cfg文件。文件包含了显示先前主机名的条目:
0 tsmnew newhostname 0
添加或更新服务器选项
如果你具有系统特权,可以在dsmserv.opt文件中添加或更新服务器选项。
可以通过使用SETOT命令编辑dsmserv.opt文件来添加或更新服务器选项。
在不重新启动服务器的情况下添加或更新服务器选项
可通过发出SETOPT命令来更新现有服务器选项:
setopt maxsessions 20
获取关于命令和错误消息的帮助
可发出不带操作数的HELP命令来显示帮助选项的菜单。也可发出带操作数的HELP命令,这些操作数用于指定帮助菜单号、命令或消息号。
要显示帮助菜单,请输入:
help
要显示关于remove命令的帮助信息,请输入:
help remove
要显示关于特定消息(例如ANR0992I)的帮助信息,请输入:
help 0992
数据库和恢复日志的概述
数据库不存储客户机数据;它指向客户机文件在存储池中的位置。
数据库包括有关下列内容的信息:
*客户机节点和管理员
*策略和调度
*服务器设置
*服务器存储器上的客户机文件的位置
*服务器操作(例如活动日志和事件记录)
数据库管理器管理数据库卷,并且无需对这些卷进行格式化。
注意:如果数据库不可用,那么整个TSM 服务器都不可用。如果数据库丢失且无法恢复,那么可能难以或无法恢复由该服务器管理的数据。
数据库可分布在最多128个目录中。支持的最大数据库大小为2TB。
数据库管理器的一些优点包括:
*自动备份数据库
*自动统计信息收集
*自动数据库重组
*用于数据库备份和复原的多数据流
*SQL查询
*数据库审计
*数据库缓冲区大小
恢复日志
恢复日志帮助确保故障(如系统停电或应用程序错误)不会使数据库处于不一致状态。如果你需要复原数据库,那么恢复日志不可或缺。
如果发生故障,那么会回滚已进行但未落实的更改。然后,将会重做可能尚未实际写入磁盘的所有已落实事务。
恢复日志由下列日志组成:
*活动日志
*日志镜像(可选)
*归档日志
*归档故障转移日志(可选)
在安装过程中,需要指定目录位置、活动日志大小和归档日志位置。
根据文件数估算数据库空间需求
要根据服务器存储器中的最大文件数估算数据库的空间需求,请使用以下准则:
*文件的每个已存储版本需要600-1000字节。
*每个高速缓存的文件、副本存储池文件、活动数据池文件和已进行重复数据删除的文件需要100-200字节。
*还需要额外的空间用于数据库优化,以支持不断变化的数据存取模式并支持数据的服务器后端处理。额外空间量等于文件对象总字节数的估算值的50%。
根据存储池容量估算数据库空间需求
要根据存储池容量估算数据库空间需求,请使用1-5%的比率。
估算恢复日志空间需求
对于估算活动日志的大小,请考虑以下一般准则:
*活动日志的建议开始大小为16GB
*确保活动日志大小至少足够用于服务器通常处理的并发活动量。可以考虑使用20%的合理额外空间量。
*监视已用和可用活动日志空间。
*确保包含活动日志的目录大于或等于活动日志大小。
归档日志的建议开始大小为48GB
归档日志目录必须足够大,以包含自上次完全备份以来生成的日志文件。
监视归档日志利用率和归档日志目录中的空间。如果归档日志目录中的空间变满,那么可能会指示以下问题:
*服务器无法执行完全数据库备份。
*其他应用程序正在对归档日志目录进行写入,从而耗尽归档日志所需的空间。
监视数据库和恢复日志的空间利用情况
要确定已用和可用的活动日志空间量,可以发出QUERY LOG命令。要监视数据库和恢复日志中的空间利用情况,还可检查活动日志以获取消息。
如果可用活动日志空间量过低,那么在活动日志中会显示以下消息:
ANR4531I:IC_AUTOBACKUP_LOG_USED_SINCE_LAST_BACKUP_TRIGGER
当活动日志空间超过最大指定大小时会显示此消息。TSM 服务器启动完全数据库备份。
要更改最大日志大小,请停止服务器,打开dsmserv.op文件,然后为ACTIVELOGSIZE选项指定新值,重启服务器。
ANR0297I:IC_BACKUP_NEEDED_LOG_USED_SINCE_LAST_BACKUP
当活动日志空间超过最大指定大小时会显示此消息。你必须手动备份数据库。
要更改最大日志大小,请停止服务器,打开dsmserv.op文件,然后为ACTIVELOGSIZE选项指定新值,重启服务器。
ANR4529I:IC_AUTOBACKUP_LOG_UTILIZATION_TRIGGER
已用活动日志空间与可用活动日志空间的比率超过日志使用率阀值。如果已进行至少一次完全数据库备份,那么TSM服务器将启动增量数据库备份。否则,服务器会启动完全数据库备份。
ANR0295I:IC_BACKUP_NEEDED_LOG_UTILIZATION
已用活动日志空间与可用活动日志空间的比率超过日志使用率阀值,你必须手动备份数据库。
归档日志
如果可用归档日志空间量过低,那么在活动日志中会显示以下消息:
ANR0299I:IC_BACKUP_NEEDED_ARCHLOG_USED
已用归档日志空间与可用归档日志空间的比率超过日志利用率阀值。TSM服务器启动自动完全数据库备份。
数据库
如果可用于数据库活动的空间量过低,那么在活动日志中会显示以下消息:
ANR2992W:IC_LOG_FILE_SYSTEM_UTILIZATION_WARNING_2
已用数据库空间超过数据库空间利用率阀值。要增加数据库空间,请使用EXTED DBSPACE命令、EXTEND DBSPACE命令或带有DBDIR参数的DSMSERV FORMAT使用程序。
ANR1546W:FILESYSTEM_DBPATH_LESS_1GB
服务器数据库文件所在目录的可用空间小于1GB.
监视数据库和恢复日志
当TSM服务器联机时,你可以发出QUERY DBSPACE命令来查看你的数据库所在的文件系统或驱动器的总空间、已用空间和可用空间。要在服务器脱机时查看相同信息,请发出DSMSERV DISPLAY DBSPACE命令。
要在服务器联机时查看有关数据库的更多详细信息,请发出QUERY DB命令。
当TSM服务器联机时,请发出QUERY LOG F=D命令以显示活动日志的总空间、已用空间和可用空间以及所有日志的位置。要在TSM服务器脱机时显示相同信息,请发出DSMSERV DISPLAY LOG命令。
可以在服务器控制台和活动日志中查看有关数据库的信息。可使用SET DBREPORTMODE命令来设置该信息的级别。指定不显示诊断信息(NONE)、显示所有诊断信息(FULL)或者仅显示异常并且可能表示错误的事件(PARTIAL)。缺省值为PARTIAL。
增加数据库的大小
你可通过创建目录并将目录添加到数据库来增加数据库的大小。
服务器可使用对于驱动器或数据库目录所在文件系统可用的所有空间。支持的最大数据库大小为2TB。
要增加数据库的大小,请采用以下步骤:
1.创建一个或多个数据库目录。
2.发出EXTEND DBSPACE命令以将一个或多个目录添加到数据库。
在将目录添加到TSM服务器之后,可能无法在最大程度地使用该目录。某些TSM事件可能导致添加的数据库空间随时间推移而被使用。
增加活动日志的大小
如果日志将耗尽空间,那么将回滚当前事务,并且服务器会发出错误消息并停止。只有在增加活动日志大小之后,才能重新启动服务器。
要在服务器停止时增加活动日志的大小,请完成以下步骤:
1.发出DSMSERV DISPLAY LOG脱机实用程序以显示活动日志的大小。
2.确保活动日志的位置具有足够空间以用于增加后的日志大小。
3.停止服务器
4.在dsmserv.opt文件中,将ACTIVELGSIZE选项更新为活动日志的新的最大大小(以字节为单位)。
5.如果你将使用新的活动日志目录,请更新ACTIVELOGDIR服务器选项中指定的目录名称。
6.重新启动服务器
将自动定义512MB的日志文件,直至达到ACTIVELOGSIZE选项中指定的大小。
手动备份数据库
要手动备份数据库,请发出BACKUP DB命令。
backup db devclass=ltotape type=full volumename=vol1,vol2,vol3 numstreams=3
恢复数据库
要复原数据库,你必须具有数据库备份卷、卷历史记录文件和设备配置文件。数据库备份卷可以是完全备份、增量备份或快照。数据库备份还可以包含恢复日志的备份。
要将数据库恢复到其最近状态,请输入DSMSERV RESTORE DB命令。
dsmserv restore db
移动数据库和恢复日志
你可以将同一文件系统上的数据库、活动日志和归档日志移动到其他文件系统上的各种目录,以进行更好的保护。
1.备份数据库。
backup db type=full devclass=files
2.停止服务器。
3.创建数据库、活动日志和归档日志的目录。
mkdir /tsmdb005
mkdir /tsmdb006
mkdir /tsmdb007
mkdir /tsmdb008
mkdir /activelog2
mkdir /archivelog2
4.创建列出数据库目录位置的文件。例如,下面是dbdirs.txt文件的内容:
/tsmdb005
/tsmdb006
/tsmdb007
/tsmdb008
5.除去数据库实例。
dsmserv removedb TSMDB1
6.请发出dsmserv restore db实用程序来移动数据库并创建新的活动日志。例如:
dsmserv restore db todate=today on=dbdirs.txt activelogdir=/activelog2
7.重新启动服务器
8.将归档日志从旧目录移动到新目录。请确保保留任何子目录结构。
cp -r /archivelog/* /archivelog2
每日监视任务
*验证数据库文件系统是否有足够的空间。
*检查数据库使用率百分比、可用空间和可用页面。
*验证包含这些日志文件的文件系统中是否有足够的磁盘空间。
--活动日志
--归档日志
--镜像日志
--归档故障转移日志
*验证实例目录文件系统是否有足够的空间。
*验证数据库备份是否成功完成,以及运行备份的频率是否足够。
*检查数据库和恢复日志统计信息。
*验证是否具有设备配置的当前备份文件以及卷历史记录信息。可通过查看dsmserv.opt文件的DEVCONFIG和VOLUMEHISTORY选项来查找备份的文件名。请确保存储文件的文件系统具有足够的空间。
*搜索总结表以查找失败的进程。
*搜索活动日志以查找错误信息。
*对于启用了重复数据删除的存储池,请确保进程正在成功完成。
*检查存储池的状态以确保有足够的可用空间。
*检查是否有任何失败的存储池迁移。
*检查有多少可用临时卷。
*确定是否有任何磁带机处于脱机状态,或者是否有磁带机路径处于脱机状态。
*确定是否有任何库处于脱机状态,或者是否有库路径处于脱机状态。
*验证所有磁带是否有相应的写访问权。
*验证disaster recovery manager(DRM)的状态和设置。
*验证是否有失败或缺失的调度。
*检查调度客户机操作的总结表。
*检查调度服务器操作的总结表。
使用命令行监视操作
每日监视服务器进程
1.搜索总结表以查找先前24小时周期内失败的任何服务器进程:
select activity as process,number as processnum from summary where
activity in (‘EXPIRATION‘,‘RECLAMATION‘,‘MIGRATION‘,‘STGPOOL BACKUP‘,
‘FULL_DBBACKUP‘,‘INCR_DBBACKUP‘) and successful=‘NO‘ and end_time>
(current_timestamp - interval ‘24‘ hours)
2.搜索活动日志以查找与第一步中的命令输出中指示的失败进程号关联的消息。
select message from actlog where process=7 and date_time>(current_timestamp - interval ‘24‘ hours) and severity in (‘W‘,‘E‘,‘S‘)
3.检查成功数据库备份的频率以确定运行的频率是否足够,因为足够的频率才能清除归档日志空间,提供足够恢复点,以及允许保存相应数量的卷以进行灾难恢复。
每日监视数据库
1.使用query dbspace命令,然后检查通过查询报告的文件系统信息,以确保文件系统具有足够空间。请检查总空间、已用空间和可用空间。
2.检查数据库所在的文件系统
3.查询数据库以确保使用率百分比是可接受的,而且剩余的空间足以应对未来几天或几周的预期活动。这包括检查可用空间容量和可用页面的值。
query db f=d
4.监视文件系统以确保它们没有耗尽空间。
query log f=d
5.检查实例目录以确保它有足够的空间.
检查instance_dir/sqllib/db2dump目录并定期删除*.trap.txt和*.dump.bin文件.
V6.2和更高版本的服务器:
db2diag.log文件由TSM管理并且将定期自动清理.
DB2DIAGSIZE选项可用于控制诊断日志文件的最大大小.
V6.1服务器必须定期删除db2diag.log文件.
6.验证数据库备份是否已成功完成
7.检查以确保dsmserv.opt文件中配置的DEVCONFIG和VOLUMEHISTORY文件是当前版本而且是最新的.
每日监视磁盘存储池
1.检查存储池的状态并确保有足够高的可用空间。
*检查使用率百分比以确保空间量足以应对数据传入速率。
*应将迁移阀值的上限和下限设置为将允许正确迁移循环的值
*如果存储池设置为CACHE=YES,那么迁移百分比应接近于零。
*这表示系统正在将项适当地清除存储池。
发出QUERY STGPOOL命令显示关于一个或多个存储池的信息。
2.查看磁盘卷的状态。发出SELECT命令并指定特定设备类名称:
select volume_name,status from volumes
where devclass_name=‘devclass_name‘
3.检查是否存在可导致空间未及时释放的任何失败迁移:
select start_time,end_time,activity as process,number as processnum,
entity as poolname from summary where activity=‘MIGRATION‘ and successful=‘NO‘
and end_time>(current_timestamp - interval ‘24‘ hours)
每日监视顺序存取存储池
1.检查存储池的状态并确保有足够的可用空间。
QUERY STGPOOL
2.使用该select命令检查顺序存取存储池卷的状态:
select volume_name,status,access,write_errors,read_errors,
error_state from volumes where stgpool_name=‘STORAGE_POOL_NAME‘
3.验证是否所有磁带都有都有适当的写访问权:
select volume_name,access from volumes
where stgpool_name=‘TAPEPOOL‘ and access!=‘READWRITE‘
4.使用QUERY DIRSPACE命令可显示设备类为FILE的设备类相关联目录中的可用空间。
query dirspace
5.使用select命令确定磁带库中有多少临时卷可用:
select library_name,count(*) "Scratch volumes" from libvolumes
where status=‘Scratch‘ group by library_name
6.确定可能从使用这些磁带库的存储池分配出多少临时卷
select stgpool_name,(maxscratch-numsratchused)
as "Num Scratch Allocatable" from stgpools
where devclass=‘DEVICE_CLASS_NAME‘
7.确定是否有任何磁带机或路径处于脱机状态
a.检查以确保磁带机处于联机状态:
select drive_name,online from drives
where online<>‘YES‘
b.检查以确保磁带机的路径也处于联机状态。
select library_name,destination_name,online
from paths where online<>‘YES‘ and destination_type=’DRIVE‘
8.检查是否有任何库路径处于脱机状态:
select destination_name,device,online from paths
where online<>‘YES‘ and destination_type=‘LIBRARY‘
每日监视调度操作
1.查找可能指示问题的任何缺失或失败的调度操作:
query event * * type=client
query event * type=admin
2.检查缺失的调度
select time(scheduled_start)"Start Time",node_name"Client"
from events where status=‘Missed‘
3.检查任何失败的调度
select time(scheduled_start)"Start Time",node_name"Client"
from events where status=‘Failed‘
4.检查活动日志以查找可能指示问题的任何意外消息。
query actlog search=ANE????E begindate=today
query actlog search=ANE????W begindate=today
query actlog search=ANE????S begindate=today
5.检查火活动日志以查找服务器消息
query actlog search=ANR????E begindate=today
query actlog search=ANR????W begindate=today
query actlog search=ANR????S begindate=today
query actlog search=ANR9999D begindate=today
6.检查各种调度客户机操作
select * from summary where schedule_name is not null and end_time>
(current_timestamp - interval ‘24‘ hours) and activity in
(‘BACKUP‘,‘ARCHIVE‘,‘RETRIEVE‘,‘RESTORE‘)
7.检查调度服务器进程
select * from summary where schedule_name is not null and end_time>
(current_timestamp - interval ‘24‘ hours) and activity in
(‘EXPIRATION‘,‘MIGRATION‘,RECLAMATION‘,‘STGPOOL BACKUP‘,‘FULL_DBBACKUP‘,‘INCR_DBBACKUP‘)
基本监视方法
关于客户机会话的信息
query session
关于服务器进程的信息
query process
关于服务器设置的信息
query status
查询服务器选项
query option
查询系统
query system
该命令可用于为IBM服务所作的问题分许来收集统计信息并提供信息
输入query system命令时,服务器将发出以下查询:
query association
显示与一个或多个客户机调度相关联的所有客户机节点
query copygroup
显示所有备份和归档副本组(标准格式)
query db
显示关于数据库的信息(详细格式)
query dbspace
显示与数据库使用的目录相关的显示信息
query devclass
显示所有设备类(详细格式)
quer domain
显示所有策略域(标准格式)
query log
显示关于恢复日志的信息(详细格式
query mgmtclass
显示所有管理类(标准格式)
query option
显示所有服务器选项
query process
显示关于所有活动后台进程的信息
query schedule
显示客户机调度(标准格式)
query session
以标准格式显示所有管理和客户机节点会话的相关信息
query status
显示常规服务器参数
query stgpool
显示关于所有存储池的信息(详细格式)
query volume
显示关于所有存储池的信息(标准格式)
query volhistory
显示服务器收集的顺序卷历史记录信息
select platform_name,count(*) from nodes group by platform_name
按平台显示客户机节点的数量
select stgpool_name,devclass_name,count(*) from volumes
group by stgpool_name,devclass_name
显示被分配了一个或多个卷的所有存储池的名称及关联设备类
了解系统目录表
TSM提供了三个系统目录表:
SYSCAT.TABLES
包含可以用SELECT命令查询的所有表格的相关信息
SYSCAT.COLUMNS
说明每个表中的列
SYSCAT.ENUMTYPES
定义每种枚举类型的有效值以及每种类型的值的顺序。
以上是关于TSM日常维护的主要内容,如果未能解决你的问题,请参考以下文章
视频课程上线-AD域日常维护实战之AD域账号日常维护常用操作
Tableau Server 企业日常问题 26TSM 命令失败,并出现“500 - 内部服务器”错误
Tableau Server 企业日常问题 26TSM 命令失败,并出现“500 - 内部服务器”错误