openGauss维护管理之日志收集gs_collector
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了openGauss维护管理之日志收集gs_collector相关的知识,希望对你有一定的参考价值。
一、概述
当openGauss发生故障时,使用此工具收集OS信息、日志信息以及配置文件等信息,来定位问题。可以使用-C参数,指定收集不同的信息内容,具体支持收集的内容信息如表所示。
1、gs_collector内容收集对照表
TypeName | Content | 描述 | 是否默认收集 |
System | HardWareInfo RunTimeInfo | 收集现在操作系统的状态信息:
| 是 |
Database | 具体列表见表1。 | 收集系统视图或者系统表的内容。 | 是,默认收集pg_locks、pg_stat_activity和 pg_thread_wait_status三个视图的信息。 |
Log | DataNode ClusterManager |
| 是 |
Config | DataNode |
| 是 |
Gstack | DataNode | 利用gstack命令得到DataNode的当前堆栈信息。 | 否 |
CoreDump | gs_ctl、gaussdb、GaussMaster、AioWorker、AlarmChecker、Archiver、Auditor、AutoVacLauncher、AutoVacWorker、AuxMain、BackendMode、BgWriter、BootStrap、Catchup、CBMWriter、Checkpointer、CommAuxStream、CommPoolCleane、CommRcvStream、CommRcvWorker、CommSendStream、CpMonitor、DataRcvWriter、DataReceiver、DataSender、ExtremeRTO、FencedUDFMaster、Heartbeater、JobExecutor、JobScheduler、LWLockMonitor、PageWriter、ParallelRecov、PercentileJob、Reaper、RemoteSrv、StartupProcess、StatCollector、Stream、SysLogger、ThdPoolListener、TwoPhaseCleaner、WalRcvWriter、WalReceiver、WalSender、WalWriter、WDRSnapshot、WlmArbiter、WlmCollector、WlmMonitor | 通过时间筛选gaussdb进程的core文件。 注意: 关于Core的配置和方式请按照如下要求:在/proc/sys/opengauss/core_pattern文件中添加core文件的格式:core-%e-%p-%t。 | 否 |
XLog | DataNode | 通过时间筛选收集xlog。 | 否 |
Plan | * | 收集计划复现信息:
| 否 |
日志收集工具依赖操作系统工具,例如gstack为其中一种,如果未安装该工具,则提示错误后,跳过该收集项。
2、语法
• 日志收集(非root用户)
gs_collector --begin-time="BEGINTIME" --end-time="ENDTIME" [-h HOSTNAME | -f HOSTFILE] [--keyword=KEYWORD] [--speed-limit=SPEED] [-o OUTPUT] [-l LOGFILE] [-C CONFIGFILE]
• 显示帮助信息
gs_collector -? | --help
• 显示版本号信息
gs_collector -V | --version
参数说明
-h
收集信息的主机名称。取值范围:主机名称,如果不指定则默认收集所有主机的信息。
-f
主机名称列表文件。该文件为纯文本格式。
说明: -f和-h参数不能同时使用。取值范围:主机名称列表。
-o
将收集日志以压缩包形式输出到指定的文件夹。
不指定则将检查结果以压缩包形式输出到配置文件中tmpMppdbPath选项所指定的目录中。
若配置文件中未配置tmpMppdbPath选项,则默认将检查结果以压缩包形式输出到“/tmp/用户名_mppdb/”目录中。
-l
指定的日志文件以及存放路径。
-C
指定待收集内容的配置文件,利用TypeName指定需要收集的信息类型,利用Content指定每一类信息的具体内容,利用Count指定此类信息收集的次数
,利用Interval指定收集间隔,单位为秒。
TypeName和Content不允许缺失或者内容为空。
Interval和Count可以不指定,如果没有指定Count,则默认收集一次。如果没有指定Interval则表示间隔为0秒,Interval和Count的值不能小于0。
如果不指定则使用默认的配置文件。
配置文件格式采用json格式,模板如下:
"Collect":
[
"TypeName": "name", "Content":"value","Interval":"seconds", "Count":"count"
]
说明:
TypeName和对应的Content取值范围见表1gs_collector内容收集对照表。 对于Log、CoreDump、Config和XLog四种类型,Interval和Count参
数不生效。
默认配置文件内容如下:
"Collect":
[
"TypeName": "System", "Content":"RunTimeInfo, HardWareInfo","Interval":"0", "Count":"1",
"TypeName": "Log", "Content" : "DataNode,ClusterManager", "Interval":"0", "Count":"1",
"TypeName": "Database", "Content": "pg_locks,pg_stat_activity,pg_thread_wait_status","Interval":"0", "Count":"1",
"TypeName": "Config", "Content": "DataNode", "Interval":"0", "Count":"1"
]
--keyword=KEYWORD
包含关键字KEYWORD的日志文件。
若关键字KEYWORD中含有空格,需要使用双引号包围。
说明:
性能日志为二进制日志,关键字搜集功能不支持该日志的搜集。
--begin-time
日志的开始时间。输入格式为“yyyymmdd hh:mm”。
--end-time
日志的结束时间。输入格式为“yyyymmdd hh:mm”。
--speed-limit
日志收集时的收集速率,输入格式为非负整数,单位为MB/s。
该参数主要是为了防止日志收集过程中产生过高的磁盘或网络IO,导致数据库节点故障(如果它们与GAUSSLOG/
PGHOST部署在同一个磁盘上)。该值应当不超过openGauss内上述磁盘IO与网络IO速率的最小值的1/3。
-?, --help
显示帮助信息。
-V, --version
显示版本号信息。
二、示例
1、直接收集
执行如下命令收集OS信息和日志信息。
gs_collector --begin-time="20180131 23:00" --end-time="20180201 20:00" -h plat1
查看收集到的统计信息。
tar -zxvf $PGHOST/collector_20200624_134541.tar.gz
collector_20200624_134541/
collector_20200624_134541/plat1.tar.gz
collector_20200624_134541/Detail.log
collector_20200624_134541/Summary.log
cd collector_20200624_134541
tar -zxvf plat1.tar.gz
plat1/
plat1/catalogfiles/
plat1/catalogfiles/gs_clean_20200624_134548283647.txt
plat1/catalogfiles/dn_6001_pg_locks_20200624_134547746215.csv
plat1/catalogfiles/dn_6001_pg_thread_wait_status_20200624_134548068716.csv
plat1/catalogfiles/dn_6001_pg_stat_activity_20200624_134547851117.csv
plat1/configfiles/
plat1/logfiles/
plat1/logfiles/log_20200624_134548540916.tar.gz
plat1/coreDumpfiles/
plat1/gstackfiles/
plat1/systemfiles/
plat1/systemfiles/OS_information_20200624_134542218134.txt
plat1/systemfiles/database_system_info_20200624_134546282006.txt
plat1/planSimulatorfiles/
plat1/xlogfiles/
cd plat1/logfiles/
tar -zxvf log_20200624_134548540916.tar.gz
2、指定配置文件
vi collector.json
"Collect":
[
"TypeName": "System", "Content":"RunTimeInfo, HardWareInfo","Interval":"0", "Count":"1",
"TypeName": "Log", "Content" : "Coordinator,DataNode,Gtm,ClusterManager", "Interval":"0", "Count":"1",
"TypeName": "Database", "Content": "pg_locks,pg_stat_activity,pg_thread_wait_status","Interval":"0", "Count":"1",
"TypeName": "Config", "Content": "Coordinator,DataNode,Gtm", "Interval":"0", "Count":"1"
]
配置文件中
利用TypeName指定需要收集的信息类型;
利用Content指定每一类信息的具体内容;
利用Count指定此类信息收集的次数;
利用Interval指定收集间隔,单位为秒;
TypeName和Content不允许缺失或者内容为空;
Interval和Count可以不指定,如果没有指定Count,则默认收集一次;
如果没有指定Interval则表示间隔为0秒,Interval和Count的值不能小于0;
如果不指定则使用默认的配置文件;
可以根据gs_collector内容收集对照表进行个性化定制配置;
配置文件格式采用json格式。
gs_collector --begin-time="20200720 23:00" --end-time="20200729 20:00" -C /home/omm/collector.json
Successfully parsed the configuration file.
create Dir.
Successfully create dir.
do system check interval 0 : count 1
Collecting OS information.
Failed to collect OS information.
do database check interval 0 : count 1
Collecting catalog statistics.
Successfully collected catalog statistics.
do log check interval 0 : count 1
Collecting Log files.
Successfully collected Log files.
do Config check 0:1
Collecting Config files.
Successfully collected Config files.
Collecting files.
Successfully collected files.
All results are stored in /opt/huawei/wisequery/omm_mppdb/collector_20200727_094932.tar.gz.
cd /opt/huawei/wisequery/omm_mppdb/
tar -zxvf collector_20200727_094932.tar.gz
cd collector_20200727_094932
tar -zxvf db1.tar.gz
cd db1
cd catalogfiles/
-rw------- 1 omm dbgrp 389 Jul 27 09:49 dn_6001_pg_locks_20200727_094934961507.csv
-rw------- 1 omm dbgrp 1.4K Jul 27 09:49 dn_6001_pg_stat_activity_20200727_094935134988.csv
-rw------- 1 omm dbgrp 878 Jul 27 09:49 dn_6001_pg_thread_wait_status_20200727_094935303146.csv
-rw------- 1 omm dbgrp 281 Jul 27 09:49 gs_clean_20200727_094935470508.txt
openGauss维护管理之最大连接数设置
一、查看最大连接数
1、登录服务器
gsql -d postgres -p 26000 -r
2、查看当前已使用连接数
openGauss=# select count(1) from pg_stat_activity;
count
-------
10
(1 row)
3、查看数据库设置的最大连接数
openGauss=# SHOW max_connections;
max_connections
-----------------
5000
(1 row)
5000 表示数据库设置的最大连接个数为5000。如果当前数据库已使用的连接数快接近于最大连接数时,运维人员先要果断的增加最大连接数以防系统新的连接无法建立。
二、调整最大连接数
1、在omm 用户环境下通过gs_guc工具来增大参数值
[omm@gsdb01 ~]$ gs_guc reload -I all -c "max_connections= 6000";
The gs_guc run with the following arguments: [gs_guc -I all -c max_connections= 6000 reload ].
expected instance path: [/opt/huawei/install/data/dn01/postgresql.conf]
gs_guc reload: max_connections=6000: [/opt/huawei/install/data/dn01/postgresql.conf]
server signaled
Total instances: 1. Failed instances: 0.
Success to perform gs_guc!
#实际上修改的也是/opt/huawei/install/data/dn01/postgresql.conf
2、alter system set 语句
[omm@gsdb01 ~]$ gsql -d postgres -p 26000 -r
gsql ((openGauss 3.1.1 build 70980198) compiled at 2023-01-06 09:27:09 commit 0 last mr )
Non-SSL connection (SSL connection is recommended when requiring high-security)
Type "help" for help.
openGauss=# alter system set max_connections=7000;
NOTICE: please restart the database for the POSTMASTER level parameter to take effect.
ALTER SYSTEM SET
#实际上修改的也是/opt/huawei/install/data/dn01/postgresql.conf
3、直接修改配置文件
vi /opt/huawei/install/data/dn01/postgresql.conf
max_connections = 8000 # (change requires restart)
4、必须重启才能生效
gs_om -t restart
以上是关于openGauss维护管理之日志收集gs_collector的主要内容,如果未能解决你的问题,请参考以下文章