2020-11-06

Posted 2023-03-24

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2020-11-06相关的知识，希望对你有一定的参考价值。

参考技术A 蓝鲸平台日常维护中遇到的问题【摘要】在蓝鲸平台的日常维护过程中，会遇到一些平台异常的问题，这些问题有一些是常见的，例如bkdata进程异常导致监控数据未上报，有一些是特定情况下遇到的，但经过排查可以解决的，希望通过整理之前处理过的排错，对以后遇到类似的问题有帮助，能够迅速排查解决。

cmdb重启失败【问题描述】重启cmdb所在机器后，发现启动cmdb有报错，出现cmdb_adminserver：ERROR（spawn error）【排查】查日志发现连接MongoDB失败，使用bk_cmdb用户也无法登陆到MongoDB 【解决方法】在MongoDB里重新对bk_cmdb用户进行授权，授权完之后，再重新启动cmdb1)、重新授权

# source /data/install/utils.fc

# mongo -u $MONGODB_USER -p

$MONGODB_PASS --port $MONGODB_PORT --authenticationDatabase admin

# show dbs;

#进入cmdb这个库

# use cmdb;

#更新bk_cmdb用户的密码（密码可以从/data/install/.app.token中查找）

# db.updateUser("bk_cmdb",pwd:"密码")

# cd /data/install

# ./bkeec stop cmdb

# ./bkeec status cmdb

# ./bkeec start cmdb

# ./bkeec status cmdb

cmdb访问报404【问题描述】cmdb所在机器意外重启之后，访问cmdb出现404的问题。【排查】检查服务都是正常的，查看cmdb_adminserver的日志之后，发现无法解析zk.service.consul，检查dns后，发现首选dns不是127.0.0.1了。【解决方法】修改/etc/resolv.conf的nameserver，确保 /etc/resolv.conf 里第一个nameserver是 127.0.0.1，而且option选项不能有rotate。     1.3、SaaS访问异常【问题描述】登录到蓝鲸后，打开SaaS均出现”应用出现异常”的报错。【排查】1)、在出现异常的时间段内，检查蓝鲸进程运行情况，运行状态显示为RUNNING；                 2)、对CMDB服务进行排查，通过查看cmdb_apiserver.stdout.log和cmdb的nginx访问日志发现，连接cmdb的esb-api接口服务出现timeout，初步怀疑是由于api服务连接不上导致问题的出现。【解决方法】重启cmdb服务后，该问题解决，SaaS恢复正常访问。在中控机重启cmdb

# cd /data/install

# ./bkeec stop cmdb

# ./bkeec status cmdb

# ./bkeec start cmdb

# ./bkeec status cmdb

组件监控【问题描述】配置组件监控，保存时，报用户没有权限，出现”调用接口失败 execute_platform_task：账户【test】没有该业务的操作权限” 【排查】经咨询开发人员后，确认是以下原因导致：1)、由于exporter是内置在蓝鲸业务的机器下的，下发流程涉及到跨业务分发文件，因此要求用户同时拥有源业务和目标业务的权限，目前还在确定解决方案。2)、 promtheus类型的组件会有这个问题，包括Mencache、SQLServer、Oracle、Haproxy、Weblogic、RabbitMQ、Zookeeper等。【解决方法】目前将”蓝鲸”这个业务的运维人员加上这个账号，即可解决该问题。  2.2

主机性能监控【问题描述】cpu5分钟负载突然显示无数据上报. 【排查】在蓝鲸自监控里检查发现，databus的etl服务有异常。【解决方法】登录到bkdata所在机器，重启etl服务。

# supervisorctl -c

/data/bkee/etc/supervisor-bkdata-databus.conf status databus_etl

# supervisorctl -c

/data/bkee/etc/supervisor-bkdata-databus.conf restart databus_etl

服务拨测【问题描述】打开服务拨测，出现【模块：data】接口返回结果错误：database not found：uptimecheck_212 的报错。【排查】旧的拨测没建库成功的，需要手动触发接口创建【解决方法】登录到蓝鲸的任意一台机器上执行以下命令创建库。

# curl -X "POST" "http://dataapi.service.consul:10011/tool/tsdb/create_db" -H 'Content-Type: application/json;

charset=utf-8' \

      -d $'

"db_name": "uptimecheck_212",

"days": "30"

'

执行脚本有异常【问题描述】作业平台执行脚本等操作时有问题，出现 " Execution result log always empty. " 的报错。【排查】经检查，healthz接口正常，nfs挂载也正常，但有一台机的gse_task出现异常情况。【解决方法】登录到出现gse_task异常的机器上重启gse_task，作业平台即可正常执行脚本等操作。

# cd /data/bkee/gse/server/bin/

# ./gsectl stop task

# ps -ef | grep gse_task

# ./gsectl start task

调整mysql的innodb_log_file_size参数为4G

# cd /data/bkee/service/mysql/bin/

# ./mysql.sh stop

# vim /data/bkee/etc/my.cnf

# innodb_log_file_size = 4096M

# cd /data/bkee/public/mysql/

# mv ib_logfile0

ib_logfile0.20190424.back

# mv ib_logfile1

ib_logfile1.20190424.back

#启动MySQL服务

# cd /data/bkee/service/mysql/bin/

# ./mysql.sh start

蓝鲸平台部署完成后再添加gse和nginx外网ip

# cd /data/install/

# vi globals.env

       export

AUTO_GET_WANIP=1

       export

GSE_WAN_IP=(GSE_WAN_IP GSE_WAN_IP1)

export NGINX_WAN_IP=(NGINX_WAN_IP NGINX_WAN_IP1)

# ./bkeec sync common

# ./bkeec render gse

# ./bkeec stop gse

# ./bkeec start gse

# ./bkeec install nginx 1

# ./bkeec stop nginx

# ./bkeec start nginx

以上是关于2020-11-06的主要内容，如果未能解决你的问题，请参考以下文章