如果有“!”,如何使用 PyYAML 解析 YAML在 YAML 中

Posted

技术标签:

【中文标题】如果有“!”,如何使用 PyYAML 解析 YAML在 YAML 中【英文标题】:How to Parse YAML Using PyYAML if there are '!' within the YAML 【发布时间】:2019-02-13 20:53:53 【问题描述】:

我有一个 YAML 文件,我只想解析 description 变量;但是,我知道我的 CloudFormation 模板(YAML 文件)中的感叹号给 PyYAML 带来了麻烦。

我收到以下错误:

yaml.constructor.ConstructorError: could not determine a constructor for the tag '!Equals'

该文件有多个!Ref!Equals。如何忽略这些构造函数并获取我正在寻找的特定变量——在本例中为 description 变量。

【问题讨论】:

请提供示例数据。 Parse an AWS CloudFormation template with a YAML library的可能重复 【参考方案1】:

如果您必须处理具有多个不同标签的 YAML 文档,并且 只对其中的一部分感兴趣,你仍然应该 处理它们。如果您感兴趣的元素是嵌套的 在其他标记的构造中,您至少需要处理所有“封闭”标签 正确。

但是,您无需单独处理所有标签,您 可以编写一个可以处理映射、序列的构造函数例程 和标量注册到 PyYAML 的 SafeLoader 使用:

import yaml

inp = """\
MyEIP:
  Type: !Join [ "::", [AWS, EC2, EIP] ]
  Properties:
    InstanceId: !Ref MyEC2Instance
"""

description = []

def any_constructor(loader, tag_suffix, node):
    if isinstance(node, yaml.MappingNode):
        return loader.construct_mapping(node)
    if isinstance(node, yaml.SequenceNode):
        return loader.construct_sequence(node)
    return loader.construct_scalar(node)

yaml.add_multi_constructor('', any_constructor, Loader=yaml.SafeLoader)

data = yaml.safe_load(inp)
print(data)

给出:

'MyEIP': 'Type': ['::', ['AWS', 'EC2', 'EIP']], 'Properties': 'InstanceId': 'MyEC2Instance'

inp也可以是打开读取的文件)。

如您在上面看到的,如果您的代码中出现意外的!Join 标签,它也将继续工作, 以及任何其他标签,如!Equal。标签刚刚被删除。

由于 YAML 中没有变量,所以有点猜测是什么 您的意思是“只喜欢解析描述变量”。如果有 显式标签(例如!Description),您可以通过添加 2-3 行来过滤掉这些值 到any_constructor,通过匹配tag_suffix参数。

    if tag_suffix == u'!Description':
        description.append(loader.construct_scalar(node))

然而,映射中的某些键更有可能是标量 description, 并且您对与该键关联的值感兴趣。

    if isinstance(node, yaml.MappingNode):
        d = loader.construct_mapping(node)
        for k in d:
        if k == 'description':
            description.append(d[k])
        return d

如果您知道数据层次结构中的确切位置,您可以 当然也走data结构并提取你需要的任何东西 基于键或列表位置。特别是在那种情况下,你会更好 使用我的ruamel.yaml,这是否可以在往返模式下加载标记的 YAML 而无需 额外的努力(假设上述inp):

from ruamel.yaml import YAML

with YAML() as yaml:
    data = yaml.load(inp)

【讨论】:

我喜欢any_constructor【参考方案2】:

您可以使用自定义yaml.SafeLoader 定义自定义构造函数

import yaml

doc = '''
Conditions: 
  CreateNewSecurityGroup: !Equals [!Ref ExistingSecurityGroup, NONE]
'''

class Equals(object):
    def __init__(self, data):
        self.data = data
    def __repr__(self):
        return "Equals(%s)" % self.data

class Ref(object):
    def __init__(self, data):
        self.data = data
    def __repr__(self):
        return "Ref(%s)" % self.data

def create_equals(loader,node):
    value = loader.construct_sequence(node)
    return Equals(value)

def create_ref(loader,node):
    value = loader.construct_scalar(node)
    return Ref(value)

class Loader(yaml.SafeLoader):
    pass

yaml.add_constructor(u'!Equals', create_equals, Loader)
yaml.add_constructor(u'!Ref', create_ref, Loader)
a = yaml.load(doc, Loader)
print(a)

输出:

'Conditions': 'CreateNewSecurityGroup': Equals([Ref(ExistingSecurityGroup), 'NONE'])

【讨论】:

更好,但不需要额外的课程。特别是因为这混淆了注册这些构造函数仍然会改变所有程序未来加载的 YAML 的事实(这是 PyYAML 的缺陷)。这仍然无法处理 !Split 或任何其他可能出现的 CloudFormation 构造。 @Anthon 所有未来的 YAML 加载?我假设yaml.add_contructor 只会在我的Loader 类的范围内更改它。这是一个严重的缺陷。 我已经有一段时间没有看到它了,但是 IIRC 所有的 add_constructor 调用都添加到了 BaseConstructor 上的 class 变量 yaml_constructor。如果您处理要解析的多个不同的 YAML 文档,这确实是一个严重的问题。但是,如果您不能传入类加载器的实例,而必须传入类(或子类)本身,则这是可以预料的。这就是 ruamel.yaml 的新 API 具有 yaml = YAML() 实例化构造的主要原因:为了能够摆脱这种情况(并且在某些时候我需要打破向后兼容性)。 @Anton 当我添加一个调用yaml.load(doc) 时,我收到错误“无法确定标签'!Equals' 的构造函数”。所以,我认为它是有范围的。 (PyYAML 3.12) 它有点范围。使用答案中的代码,首先尝试将第一个add_constructor 调用的Loader 参数更改为yaml.SafeLoader。然后恢复并更改第二个add_constructor 调用的Loader 参数。 (顺便说一句,您应该开始使用 print 函数而不是 printstatement,)

以上是关于如果有“!”,如何使用 PyYAML 解析 YAML在 YAML 中的主要内容,如果未能解决你的问题,请参考以下文章

pyyaml “有序”解析/生成yaml

使用 PyYAML 库解析 AWS CloudFormation 模板

pyyaml 加载数字为十进制

为啥 PyYAML 仅仅在解析 YAML 文件上花费了这么多时间?

Python的PyYAML模块详解

如何使用 PyYAML 读取 python 元组?