数据库运维工具化：一切从“简”，只为DBA更轻松

Posted 2021-04-26 数据资产管理峰会

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据库运维工具化：一切从“简”，只为DBA更轻松相关的知识，希望对你有一定的参考价值。

众所周知，数据库的运维既是个技术活儿也是个苦差事，不仅要有广阔的知识面，强大的技术能力，对主机、存储、网络、操作系统也最好样样精通，而且还要会写SQL、shell、最好连Java也能拿下…同时，还需要拥有超强的耐心、谨慎的态度以及强健的体魄。

今天【DBA+社群】联合发起人邹德裕老师将告诉你如何让数据库运维简单化，如何减轻DBA的工作量及压力，提升效率，并且可以拥有更多时间去思考。

如何简单化
OraZ之路
OraZ后续计划开发或扩展功能

一如何简单化

1、第一个运维工具：ora

2008年刚进公司转做专职DBA，发现DBA竟然比以前干程序员还苦逼，通宵施工如家常便饭，而且有大量的重复工作。当时每个dba在共享服务器上都有自己的脚本集，每当应用侧有任何异动DBA们就找到自己的脚本集文件，然后替换条件复制粘贴执行，遇到没找到的就一顿狂敲键盘输SQL。特别是在遇到大故障时，身后便会围着一群人，有各方领导，还有开发商，里外好几层。那可真是令人抓狂，因为做过几年的开发，我便想，为何不做一个shell程序，统一入口，只要传入参数即可。于是我开发了第一个简单的Oracle运维工具，当时脚本集就叫ora。这个工具后来在运维团队不断被完善、扩散，至今仍在使用。

数据库运维工具化：一切从“简”，只为DBA更轻松

Ora脚本集的优点：

让日常监控、维护操作等标准化。
减少出错机会，提高效率。
让DBA从容应对故障应急。

缺点也是明显的，正是有了这个工具，现在很多DBA们到了非驻场的服务现场就不会写SQL了。（怪我喽…）

2、智能HANG分析

在运维期间碰到系统常发生HANG，当数据库发生在争夺内核级别的资源时，比如Latch等，在11G之前oracle不能自动的检测并处理这种死锁。这时候需用Hanganalyze工具dump资源持有的相互关系。当二线DBA到场时已基本Hang死，或无法登陆，即使能做出dump trace也无法反映真实原因。

另外分析trace定位堵塞源也要一定时间。所以分析出结果时往往应用已中断。既然hang住后要重启或终止掉所有前台发起数据库进程才能解决，何不在hang开始初期就发起自动hang分析，识别引起hang的源头，记录相关信息，终止源头。

具体过程如下：

1．通过等待事件识别Hang症状
2．根据上一步骤判断触发搜集hanganalyze
3. 分析hang的dump信息，并确认是否存在hang
4. 识别hang的源头记录相关信息并解决hang问题

这是我编写的第二个程序（由于该程序已申请了专利，代码在此就不分享了）。

注：在Oracle 11g 11.2.0.2版本发布后，其新特性中才出现了hang 管理器(Hang Manager)

HM配置参数（开启后会根据配置终止实例或进程，请谨慎使用）：

数据库运维工具化：一切从“简”，只为DBA更轻松

3、小结

后面还有长事务、二阶段事务（DX锁）分析、自动生命周期管理、自动优化调度分析、自动巡检工具、离线巡检工具等等。如果你能把你日常需求做的工作工具化或自动化了，DBA就不是一个苦差活了。你也就有更多时间用来研究更深层次的技术了。

我只是一个会写程序却不安分的“懒”DBA。

二OraZ之路

至此越来越想做一个较为完整，能帮助DBA的工具。该工具将运行SQL查询视图监控数据库的性能，识别数据库存在的隐患。

数据库的运维工作包括部署安装、性能优化、备份容灾、故障恢复、预防性巡检等工作。这几个方面都存在不少重复度高、工作量大的任务，有的甚至还可以并行处理，这些都是该工具需解决的目标。

1、运行需求?

Oraz是基于JDBC+SSH的JAVA应用，监测和分析数据库实例活动，系统要求是相当简单，只需jdbc能连接上数据库即可，该工具不会安装任何额外软件在你的服务器和终端上。

2、Oraz目前能做什么

· 有关数据库和实例的一般信息。

· 有关数据库结构和数据存储的详细信息: 表空间，数据库文件重做日志、归档的日志等。表空间/数据文件使用情况和可用空间

· 内存信息: SGA/PGA 组件和大小，共享的池和缓冲区缓存统计数据。

· 实例活动洞察-CPU消耗、等待事件、顶级的会话、顶级SQL语句等。

· 会话信息-活动会话，排在前面的会话等。

· 顶尖的 SQL 语句和有关每个语句包括语句活动、执行统计信息、资源消耗、执行计划、版本等详细的信息。

· Oracle 数据库全系统统计信息、操作系统统计、指标和时间模型。

3、DBA日常运维之巡检

规避系统风险运维自动化体系形成之前，我们DBA的日常例行工作在总工作量中占比较高，很消耗人力，员工疲于奔命但工作效率不高，也很容易出差错。自动化平台把我们的员工从繁琐的常规工作中解放出来，更专注于做架构优化之类的有创造性的工作，效率也有了进一步的改善。

每日检查是工程师上班的第一件事，通过脚本来进行，脚本输出仅提示异常部分，检查内容例如：

数据库运维工具化：一切从“简”，只为DBA更轻松

等，编写对应查询SQL，再通过JDBC访问远程服务器获取该值进行判断：

SELECT owner, constraint_name, table_name, status

FROM all_constraints

WHERE owner = '&OWNER' AND status = 'DISABLED' AND constraint_type = 'P';

建立如360式的一键体检方式：

数据库运维工具化：一切从“简”，只为DBA更轻松

通过该体检功能可快速检测数据库问题；目前该巡检暂不支持自定义，可以考虑建立可通过saas平台分享的自定义巡检项。

4、实例活动洞察

实例活动洞察分析功能当前已同步发布更新，在很多情况下，当数据库发生性能问题的时候，我们是来不及收集足够的诊断信息的。或者收到告警，甚至问题发生的时候DBA根本不在场。这给我们诊断问题带来很大的困难。那么在这种情况下，我们是否能在事后收集一些信息来分析问题的原因呢。

Oracle重器oem，而Top Activity功能是使用最为频繁的功能点：

数据库运维工具化：一切从“简”，只为DBA更轻松

指定时段内的顶级消耗、会话等一目了然。上图中负载均以Average Active Sessions（AAS）平均活动会话进行计算。

每一个会话执行过程如下：

数据库运维工具化：一切从“简”，只为DBA更轻松

当有多个会话连接到库，并活动时：

数据库运维工具化：一切从“简”，只为DBA更轻松

通过时间片段来看同一时刻有多少会话处于活动状态，该值为AAS值。以相同方法以sql语句维度统计该时刻活动，则找出顶级活动SQL，同样可以计算顶级活动program、user、会话等待。

由于DB Time=某一时段时间总和，故顶级活动SQL即为TOPSQL，所以AAS=DB Time / elapsed time (历时)，之所以该指标叫做黄金指标，是因为通过AAS指标可以衡量一个系统的繁忙程度，这里有个CPU时间片概念，每一个CPU时间由操作系统分成CPU时间片，然后CPU时间片轮询模式分配给线程或进程（视操作新系统而定），在最小单位CPU片段内整个系统允许的最大允许数为cpu个数，故通过比较AAS值与CPU可以衡量数据库繁忙度，与CPU数量关联分析：

AAS/CPU_Count~= 0 非常空闲
AAS/CPU_Count<=0.5没堵塞
AAS /CPU_Count < 1 部分进程已达100%，应用开始出现缓慢
AAS/CPU_Count >或>> 1 出现性能问题或堵死、HANG状态

AAS在Oracle中OEM、ASH中的应用：

OEM中：

数据库运维工具化：一切从“简”，只为DBA更轻松

ASH中：

数据库运维工具化：一切从“简”，只为DBA更轻松

从Oracle 数据库 10g开始增加V$ACTIVE_SESSION_HISTORY视图，通过它可以容易地得知当前Instance的活动状态，主要是知道各个时刻系统都在等待哪些事件，通过对这些等待事件和相应等待次数的统计，就可以清晰地了解系统的历史工作负载特征和压力情况。此视图提供了大量宝贵的信息，而且不需要繁重的跟踪活动。

数据库运维工具化：一切从“简”，只为DBA更轻松