gunicorn 访问日志格式

Posted

技术标签:

【中文标题】gunicorn 访问日志格式【英文标题】:gunicorn access log format 【发布时间】:2018-05-21 13:11:26 【问题描述】:

我打算在 kubernetes 上通过 gunicorn 运行烧瓶。为了正确记录日志,我想以 json 格式输出所有日志。

目前我正在使用 minikube 和 https://github.com/inovex/kubernetes-logging 进行测试,以流畅地收集日志。

由于以下原因,我设法正确格式化了错误日志(回溯): JSON formatted logging with Flask and gunicorn

我仍在为访问日志格式而苦恼。 我指定了以下 :

access_log_format = '"remote_ip":"%(h)s","request_id":"%(X-Request-Idi)s","response_code":"%(s)s","request_method":"%(m)s","request_path":"%(U)s","request_querystring":"%(q)s","request_timetaken":"%(D)s","response_length":"%(B)s"'

并且生成的日志是 json 格式的。但是消息部分(基于 access_log_format 的格式)现在包含转义的双引号,并且不会被 fluentd / ELK 解析为它的各个字段

"tags": [], "timestamp": "2017-12-07T11:50:20.362559Z", "level": "INFO", "host": "ubuntu", "path": "/usr/local/lib/python2.7/dist-packages/gunicorn/glogging.py", "message": "\"remote_ip\":\"127.0.0.1\",\"request_id\":\"-\",\"response_code\":\"200\",\"request_method\":\"GET\",\"request_path\":\"/v1/records\",\"request_querystring\":\"\",\"request_timetaken\":\"19040\",\"response_length\":\"20\"", "logger": "gunicorn.access"

谢谢 日文

【问题讨论】:

【参考方案1】:

最简单的解决方法是把外层单引号改成双引号,把内层双引号改成单引号,如下所述。

--access-logformat  "'remote_ip':'%(h)s','request_id':'%(X-Request-Idi)s','response_code':'%(s)s','request_method':'%(m)s','request_path':'%(U)s','request_querystring':'%(q)s','request_timetaken':'%(D)s','response_length':'%(B)s'"

以下是示例日志

'remote_ip':'127.0.0.1','request_id':'-','response_code':'404','request_method':'GET','request_path':'/test','request_querystring':'','request_timetaken':'6642','response_length':'233'
'remote_ip':'127.0.0.1','request_id':'-','response_code':'200','request_method':'GET','request_path':'/','request_querystring':'','request_timetaken':'881','response_length':'20'

【讨论】:

这个答案可能不被接受,因为单引号不是有效的 JSON。但是,我想指出,我可以通过使用替换轻松地将单引号换成双引号:somestring.replace("'", '"')【参考方案2】:

您可以直接在 --access-logformat 的值中转义双引号 (\"),以使您的日志保持为有效的 JSON。

因此,如果您在 Docker 容器中运行 Gunicorn,您的 Dockerfile 可能会以如下方式结束:

CMD ["gunicorn",            \
    "-b", "0.0.0.0:5000",   \
    "--access-logfile", "-",\
    "--access-logformat", "\"remote_ip\":\"%(h)s\",\"request_id\":\"%(X-Request-Idi)s\",\"response_code\":\"%(s)s\",\"request_method\":\"%(m)s\",\"request_path\":\"%(U)s\",\"request_querystring\":\"%(q)s\",\"request_timetaken\":\"%(D)s\",\"response_length\":\"%(B)s\"", \
    "app:create_app()"]

找到其余的 Gunicorn 日志记录选项 here。

【讨论】:

【参考方案3】:

2 年过去了,我假设流利的 python 记录器已经改变,我现在遇到了一个稍微不同的问题,每次 Google 搜索都指向这个讨论。

在 gunicorn 配置文件中使用您的示例时

access_log_format = '"remote_ip":"%(h)s","request_id":"%(X-Request-Idi)s","response_code":"%(s)s","request_method":"%(m)s","request_path":"%(U)s","request_querystring":"%(q)s","request_timetaken":"%(D)s","response_length":"%(B)s"'

我得到了将其读取为 json 并将其与流利的 json 数据合并的所需行为,但是未填充 gunicorn 字段

"tags": [], "level": "INFO", "host": "ubuntu", "logger": "gunicorn.access", "remote_ip":"%(h)s","request_id":"%(X-Request-Idi)s","response_code":"%(s)s","request_method":"%(m)s","request_path":"%(U)s","request_querystring":"%(q)s","request_timetaken":"%(D)s","response_length":"%(B)s"

看起来原因是 Gunicorn 将 access_log_format 作为消息传递给记录器,所有参数 (safe_atoms) 作为附加参数,例如

/gunicorn/glogging.py

        safe_atoms = self.atoms_wrapper_class(
            self.atoms(resp, req, environ, request_time)
        )

        try:
            # safe_atoms = "s": "200", "m": "GET", ...
            self.access_log.info(self.cfg.access_log_format, safe_atoms)

但是,如果 FluentRecordFormatter 将字符串视为有效的 json,它将使用 json.loads 读取它,但忽略传递的任何参数

/fluent/handler.py

    def _format_msg_json(self, record, msg):
        try:
            json_msg = json.loads(str(msg))  # <------- doesn't merge params
            if isinstance(json_msg, dict):
                return json_msg
            else:
                return self._format_msg_default(record, msg)
        except ValueError:
            return self._format_msg_default(record, msg)

将此与调用record.message = record.getMessage() 的default Python formatter 进行比较,后者又将参数合并到

/Lib/logging/init.py

    def getMessage(self):
        """
        Return the message for this LogRecord.
        Return the message for this LogRecord after merging any user-supplied
        arguments with the message.
        """
        msg = str(self.msg)
        if self.args:
            msg = msg % self.args  # <------ args get merged in
        return msg

我已经 logged an issue 使用了 fluent-logger-python 项目。

解决方法

使用logging filter 在传递给FluentRecordFormatter 之前执行合并。

logger = logging.getLogger('fluent.test')

class ContextFilter(logging.Filter):
    def filter(self, record):
        record.msg = record.msg % record.args
        return True

fluent_handler = handler.FluentHandler('app.follow', host='localhost', port=24224)
formatter = handler.FluentRecordFormatter()
fluent_handler.setFormatter(formatter)
merge_filter = ContextFilter()
fluent_handler.addFilter(merge_filter)
logger.addHandler(fluent_handler)

编辑:日志过滤器不起作用

在使用日志过滤器的解决方法一段时间后,我开始收到类似的错误

ValueError: unsupported format character ';' (0x3b) at index 166

事实证明,FluentRecordFormatter 确实调用了基本的getMessage 实现,将参数合并到消息中

    def format(self, record):
        # Compute attributes handled by parent class.
        super(FluentRecordFormatter, self).format(record)  # <------ record.messge = record.msg % record.args
        # Add ours
        record.hostname = self.hostname

        # Apply format
        data = self._formatter(record)

        self._structuring(data, record)
        return data

问题在于_format_msg_json(self, record, msg) 使用record.msg 属性,这是未合并 数据,而record.message 是合并数据。这会产生一个问题,即我的日志过滤器正在合并/格式化数据,但随后日志格式化程序也试图这样做,并且偶尔会看到无效的语法。

解决方法 2:不要使用 Json

我已经完全放弃了从 gunicorn / python 日志中输出 json。相反,我使用 Fluentd 的解析器来解析 json,例如

<filter *.gunicorn.access>
  @type parser
  key_name message
  reserve_time true
  reserve_data true
  remove_key_name_field true
  hash_value_field access_log
  <parse>
    @type regexp
    expression /^(?<host>[^ ]*) [^ ]* (?<user>[^ ]*) \[(?<time>[^\]]*)\] "(?<method>\S+)(?: +(?<path>[^ ]*) +\S*)?" (?<code>[^ ]*) (?<size>[^ ]*) "(?<referer>[^\"]*)" "(?<agent>[^\"]*)"$/
    time_format %d/%b/%Y:%H:%M:%S %z
  </parse>
</filter>

您可以在此处了解这些选项的作用:https://docs.fluentd.org/filter/parser

【讨论】:

以上是关于gunicorn 访问日志格式的主要内容,如果未能解决你的问题,请参考以下文章

gunicorn 访问日志配置与项目启动

Nginx访问日志日志切割静态文件不记录日志和过期时间

Django + nginx + gunicorn 给出 502 错误。日志信息很少[关闭]

nginx访问日志格式

Apache 访问日志格式不正确

nginx日志格式字段