在 python 中验证 yaml 文档

Posted

技术标签:

【中文标题】在 python 中验证 yaml 文档【英文标题】:Validating a yaml document in python 【发布时间】:2011-03-16 19:25:10 【问题描述】:

XML 的一个好处是能够根据 XSD 验证文档。 YAML 没有此功能,那么如何验证我打开的 YAML 文档是否符合我的应用程序预期的格式?

【问题讨论】:

另见:***.com/questions/45812387/… 【参考方案1】:

我不知道 python 解决方案。但是有一个用于 YAML 的 ruby​​ 模式验证器,称为 kwalify。如果你没有遇到 python 库,你应该可以使用 subprocess 访问它。

【讨论】:

我真的在寻找 Pythonic 解决方案。这始终是最后的手段。【参考方案2】:

试试Rx,它有一个 Python 实现。它适用于 JSON 和 YAML。

来自 Rx 网站:

“向 Web 服务添加 API 时,您必须选择如何对通过线路发送的数据进行编码。XML 是一种常见的选择,但它会很快变得晦涩难懂。很多 Web 服务作者都希望避免考虑 XML,而是选择提供一些简单数据类型的格式,这些数据类型对应于现代编程语言中的常见数据结构,即 JSON 和 YAML。

不幸的是,虽然这些格式可以轻松传递复杂的数据结构,但它们缺乏验证系统。 XML 有 XML Schemas 和 RELAX NG,但这些都是复杂且有时令人困惑的标准。对于 JSON 提供的那种数据结构,它们的可移植性不是很好,如果您想避免使用 XML 作为数据编码,那么编写更多的 XML 来验证第一个 XML 可能就更没有吸引力了。

Rx 旨在提供一个与 JSON 风格的数据结构相匹配的数据验证系统,并且与 JSON 本身一样易于使用。”

【讨论】:

这看起来很有趣。目前尚不清楚它将如何处理以 yaml 编码的 python 对象,但值得一试。 你能分享一些使用例子吗?看了文档但看不懂 自 2014 年以来没有发布 Rx,自 2015 年以来没有提交。【参考方案3】:

是的 - 支持验证对于许多重要的用例至关重要。参见例如YAML and the importance of Schema Validation « Stuart Gunter

如前所述,Rx 可用于各种语言,Kwalify 可用于 Ruby 和 Java。

另请参阅 PyYAML 讨论:YAMLSchemaDiscussion。

一个相关的工作是 JSON Schema,它甚至有一些 IETF 标准化活动:draft-zyp-json-schema-03 - A JSON Media Type for Describing the Structure and Meaning of JSON Documents

【讨论】:

【参考方案4】:

这些看起来不错。 yaml 解析器可以处理语法错误,其中一个库可以验证数据结构。

http://pypi.python.org/pypi/voluptuous/ (我试过这个,它还不错,如果有点稀疏。) http://discorporate.us/projects/flatland/(乍一看不清楚如何验证文件)

【讨论】:

投票赞成 Voluptuous,flatland 看起来与 yaml 验证库完全不同。【参考方案5】:

鉴于 JSON 和 YAML 非常相似,您可以使用 JSON-Schema 来验证 YAML 的相当大的子集。这是一个代码 sn-p(您需要安装 PyYAML 和 jsonschema):

from jsonschema import validate
import yaml

schema = """
type: object
properties:
  testing:
    type: array
    items:
      enum:
        - this
        - is
        - a
        - test
"""

good_instance = """
testing: ['this', 'is', 'a', 'test']
"""

validate(yaml.load(good_instance), yaml.load(schema)) # passes

# Now let's try a bad instance...

bad_instance = """
testing: ['this', 'is', 'a', 'bad', 'test']
"""

validate(yaml.load(bad_instance), yaml.load(schema))

# Fails with:
# ValidationError: 'bad' is not one of ['this', 'is', 'a', 'test']
#
# Failed validating 'enum' in schema['properties']['testing']['items']:
#     'enum': ['this', 'is', 'a', 'test']
#
# On instance['testing'][3]:
#     'bad'

其中一个问题是,如果您的架构跨越多个文件并且您使用"$ref" 来引用其他文件,那么我认为其他文件将需要是 JSON。但可能有办法解决这个问题。在我自己的项目中,我正在使用 JSON 文件指定架构,而实例是 YAML。

【讨论】:

加一(因为 SE 不喜欢“+1”):jsonschema 与存储格式无关,因此只要它们反序列化为 Python 对象,它就可以处理任何类型的输入和模式. ...但我建议您使用safe_load 而不是load 我建立了一个网站来跟踪tooling support for to using JSON Schema with YAML。目前,Visual Studio Code 中有编辑器支持(通过扩展)和命令行验证工具。 无论如何使用模式有什么意义?我的意思是,如果 yaml 必须是确切的文本,那是没用的。 可以保留json中指定的json schema,防止出现ref问题吗?【参考方案6】:

我也遇到了同样的情况。我需要验证 YAML 的元素。

首先我认为“PyYAML 标签”是最好和最简单的方法。但后来决定使用“PyKwalify”,它实际上为 YAML 定义了一个模式。

PyYAML 标签:

YAML 文件有一个标签支持,我们可以通过为数据类型添加前缀来强制执行这些基本检查。 (例如)对于整数 - !!int "123"

更多关于 PyYAML:http://pyyaml.org/wiki/PyYAMLDocumentation#Tags 这很好,但是如果您要将其公开给最终用户,则可能会引起混淆。 我做了一些研究来定义 YAML 的模式。这个想法就像我们可以使用其相应的模式来验证 YAML 以进行基本数据类型检查。甚至我们的自定义验证,如 IP 地址、随机字符串也可以添加到其中。所以我们可以让我们的架构分开,让 YAML 简单易读。

我无法发布更多链接。请 'google schema for YAM'L 查看架构讨论。

PyKwalify:

有一个名为 PyKwalify 的包可用于此目的:https://pypi.python.org/pypi/pykwalify

这个包最符合我的要求。 我在本地设置中尝试了一个小示例,并且正在工作。这是示例架构文件。

#sample schema

type: map
mapping:
    Emp:
        type:    map
        mapping:
            name:
                type:      str
                required:  yes
            email:
                type:      str
            age:
                type:      int
            birth:
                type:     str

此架构的有效 YAML 文件

---
Emp:
    name:   "abc"
    email:  "xyz@gmail.com"
    age:    yy
    birth:  "xx/xx/xxxx"

谢谢

【讨论】:

【参考方案7】:

您可以使用 python 的 yaml 库来显示已加载文件的消息/字符/行/文件。

#!/usr/bin/env python

import yaml

with open("example.yaml", 'r') as stream:
    try:
        print(yaml.load(stream))
    except yaml.YAMLError as exc:
        print(exc)

错误信息可以通过exc.problem访问

访问exc.problem_mark 以获取<yaml.error.Mark> 对象。

这个对象允许你访问属性

姓名 列 行

因此您可以创建自己的指向问题的指针:

pm = exc.problem_mark
print("Your file  has an issue on line  at position ".format(pm.name, pm.line, pm.column))

【讨论】:

这仅验证基本的 YAML 格式 - 而不是任何类型的架构。【参考方案8】:

我发现 Cerberus 非常可靠,文档丰富且易于使用。

这是一个基本的实现示例:

my_yaml.yaml:

name: 'my_name'
date: 2017-10-01
metrics:
    percentage:
    value: 87
    trend: stable

schema.py 中定义验证模式:


    'name': 
        'required': True,
        'type': 'string'
    ,
    'date': 
        'required': True,
        'type': 'date'
    ,
    'metrics': 
        'required': True,
        'type': 'dict',
        'schema': 
            'percentage': 
                'required': True,
                'type': 'dict',
                'schema': 
                    'value': 
                        'required': True,
                        'type': 'number',
                        'min': 0,
                        'max': 100
                    ,
                    'trend': 
                        'type': 'string',
                        'nullable': True,
                        'regex': '^(?i)(down|equal|up)$'
                    
                
            
        
    

使用PyYaml 加载yaml 文档:

import yaml
def load_doc():
    with open('./my_yaml.yaml', 'r') as stream:
        try:
            return yaml.load(stream)
        except yaml.YAMLError as exception:
            raise exception

## Now, validating the yaml file is straightforward:
from cerberus import Validator
schema = eval(open('./schema.py', 'r').read())
    v = Validator(schema)
    doc = load_doc()
    print(v.validate(doc, schema))
    print(v.errors)

请记住,Cerberus 是一个不可知论的数据验证工具,这意味着它可以支持 YAML 以外的格式,例如 JSON、XML 等。

【讨论】:

你应该直接做print(v.validate(doc)),因为你已经用schema对象实例化了Validator类。【参考方案9】:

我包装了一些现有的与 json 相关的 python 库旨在能够将它们与 yaml 一起使用

生成的python库主要包装...

jsonschema - 针对json-schema 文件的json 文件的验证器,被包装以支持针对json-schema 格式的json-schema 文件验证yaml 文件。

jsonpath-ng - 用于 python 的 JSONPath 的实现,被包装以支持直接在 yaml 文件上选择 JSONPath

...并且在 github 上可用:

https://github.com/yaccob/ytools

可以使用pip安装:

pip install ytools

验证示例(来自https://github.com/yaccob/ytools#validation):

import ytools
ytools.validate("test/sampleschema.yaml", ["test/sampledata.yaml"])

您还没有开箱即用的内容是针对yaml 格式的外部模式进行验证。

ytools 并没有提供以前不存在的任何东西——它只是让一些现有解决方案的应用更加灵活和方便。

【讨论】:

【参考方案10】:

您可以将 YAML 文档加载为 dict 并使用库 schema 进行检查:

from schema import Schema, And, Use, Optional, SchemaError
import yaml

schema = Schema(
        
            'created': And(datetime.datetime),
            'author': And(str),
            'email': And(str),
            'description': And(str),
            Optional('tags'): And(str, lambda s: len(s) >= 0),
            'setup': And(list),
            'steps': And(list, lambda steps: all('=>' in s for s in steps), error='Steps should be array of string '
                                                                                  'and contain "=>" to separate'
                                                                                  'actions and expectations'),
            'teardown': And(list)
        
    )

with open(filepath) as f:
   data = yaml.load(f)
   try:
       schema.validate(data)
   except SchemaError as e:
       print(e)

【讨论】:

【参考方案11】:

Pydantic 未被提及。

从他们的例子中:

from datetime import datetime
from typing import List, Optional
from pydantic import BaseModel


class User(BaseModel):
    id: int
    name = 'John Doe'
    signup_ts: Optional[datetime] = None
    friends: List[int] = []


# Parse your YAML into a dictionary, then validate against your model.
external_data = 
    'id': '123',
    'signup_ts': '2019-06-01 12:22',
    'friends': [1, 2, '3'],

user = User(**external_data)

【讨论】:

以上是关于在 python 中验证 yaml 文档的主要内容,如果未能解决你的问题,请参考以下文章

pytest文档72- 使用 template 替换 yaml 文件的变量

python实现处理swagger接口文档,转换为yaml格式的自动化用例

python实现处理swagger接口文档,转换为yaml格式的自动化用例

python实现处理swagger接口文档,转换为yaml格式的自动化用例

Promtail 基本身份验证在 helm values.yaml 中使用 kubernetes 秘密

如何解析包含多个文档的 YAML 文件?