每天进步一点点——Ganglia的Python扩展模块开发

Posted 2020-09-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了每天进步一点点——Ganglia的Python扩展模块开发相关的知识，希望对你有一定的参考价值。

转载请说明出处：http://blog.csdn.net/cywosp/article/details/39701245

注：本文涉及到的代码都在centos 6.5 64bit系统上通过验证，Ganglia版本号为3.1。通过yum安装详细步骤请參考：

http://blog.csdn.net/cywosp/article/details/39701141

1. 概述

Ganglia 项目是由加州大学发起的，如今已经成为一个应用非常广泛集群监控软件。能够监视和显示集群中的节点的各种状态信息，比方如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等。同一时候能够将历史数据以曲线方式通过php页面呈现。

同一时候具有非常好的扩展性。同意用户增加自己所要监控的状态信息。依据可视化的相关数据，非常easy知道集群的健康状态。而且也能够分析出集群的可优化的地方。

全部这些数据收集会多次影响节点性能。
网络中的“ 抖动（ Jitter ） ” 发生在大量小消息同一时候出现，通过ntp服务将节点的时钟保持一致，就能够避免这个问题。

Ganglia的工作原理例如以下图

很多其它关于Ganglia工作原理请參考http://flyerlee.diandian.com/post/2013-06-03/40051002657，本文重点是讲述怎样使用Ganglia提供的Python接口开发自己想要的metric。

2. Ganglia的Metrics

何为metric。在字典中其翻译为标准，度量之意。在ganglia的Web界面中我们看得最多的是例如以下这些图：

这些图还不能算是真正的metric，其仅仅是各个种类的metric的汇总后通过rrdtool画出来的图，便于整体观察。以下这些才是本文要讲述的metric（CPU的metrics）:

每个小图表代表着cpu相关信息的一个数据类型。这些数据都是通过相应的部署在各个集群节点的程序模块搜集，而这个搜集模块的开发就是本文要重点解说的。

3. 自己定义metrics开发

向ganglia增加自己定义metric有两种方法，一种是通过命令行的方式执行gmetric，还有一种是通过ganglia提供的面向c和python的扩展模块。增加自己定义的模块支持。

以下使用Python开发一个简单的metric实例：

在/usr/lib64/ganglia/python_modules/中创建random_number.py并加入例如以下代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import random
import time
descriptors = list()
def random_number_1(name):
    return int(random.uniform(5, 100)) + 10
def random_number_2(name):
    return int(random.randrange(50, 500))
def metric_init(params):
    global descriptors
    random.seed()
    print params
    d1 = {
        'name': 'random_number_1',
        'call_back': random_number_1,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'C',
        'slope': 'both',
        'format': '%u',
        'description': 'Random a number',
        'groups': 'example random'
    }
    d2 = {
        'name': 'random_number_2',
        'call_back': random_number_2,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'C',
        'slope': 'both',
        'format': '%u',
        'description': 'Random a number',
        'groups': 'example random'
    }
    descriptors = [d1, d2]
    return descriptors
def metric_cleanup():
    pass

#This code is for debugging and unit testing
if __name__ == '__main__':
    metric_init({})
    while True:
        for d in descriptors:
            v = d['call_back'](d['name'])
            print ('value for %s is '+d['format']) % (d['name'], v)
        time.sleep(5)

在上面的代码中Ganglia执行的时候会调用metric_init和metric_cleanup两个函数，从这两个函数的名字我们就能得知前一个是做初始化工作，后面一个是做结束资源清理工作的。在Ganglia载入相关模块来执行时，仅仅会调用这两个函数。这里的main函数入口仅仅是为了做调试而写在这里的。

在/etc/ganglia/conf.d/中创建random_number.conf文件，并加入例如以下代码

modules {

module {

#这里的name值一定要与/usr/lib64/ganglia/python_modules/random_number.py的文件名称保持一致，否则将无法正确执行

name = "random_number"

language = "python"

}

}

collection_group {

collect_every = 2

time_threshold = 90

metric {

#这里的name值要与random_number.py中的d1里的name保持一致

name = "random_number_1"

title = "random number 1"

value_threshold = 0

}

metric {

#这里的name值要与random_number.py中的d2里的name保持一致

name = "random_number_2"

title = "random number 2"

value_threshold = 0

}

}