使用 XSLT 拆分和展平节点
Posted
技术标签:
【中文标题】使用 XSLT 拆分和展平节点【英文标题】:split and flatten nodes with XSLT 【发布时间】:2015-06-25 00:20:50 【问题描述】:我不能有任何嵌套跨度,所以我需要将它们展平并连接它们的类属性,以便我可以跟踪哪些类是父类。
这是一个简化的输入:
<body>
<h1 class="section">Title</h1>
<p class="main">
ZZZ
<span class="a">
AAA
<span class="b">
BBB
<span class="c">
CCC
<preserveMe>
eeee
</preserveMe>
</span>
bbb
<preserveMe>
eeee
</preserveMe>
</span>
aaa
</span>
</p>
</body>
这是所需的输出
<body>
<h1 class="section">Title</h1>
<p class="main">
ZZZ
<span class="a">
AAA
</span>
<span class="ab">
BBB
</span>
<span class="abc">
CCC
<preserveMe>
eeee
</preserveMe>
</span>
<span class="ab">
bbb
<preserveMe>
eeee
</preserveMe>
</span>
<span class="a">
aaa
</span>
</p>
</body>
这是我最近的一次(我对此真的很陌生,所以即使走到这一步也花了我很长时间......)
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/">
<p>
<xsl:apply-templates/>
</p>
</xsl:template>
<xsl:template match="*/span">
<span class='concat(../../@class,../@class,@class)'>
<xsl:value-of select='.'/>
</span>
<xsl:apply-templates/>
</xsl:template>
</xsl:stylesheet>
如果你自己运行它,你可以看到我尝试失败的结果,以及它与我真正想要的相差多远。理想情况下,我想要一个接受任意数量的嵌套级别并且还可以处理中断嵌套(span、span、notSpan、span...)的解决方案。
编辑:我根据下面评论者的请求在嵌套结构中添加了标签。另外,我使用的是 XSLT v1.0,但如果需要,我想我可以使用其他版本。
编辑 2:我意识到我的示例与我实际需要转换的示例相比过于简化。也就是说,我不能从其他标签中丢失类;只有跨度可以组合。
【问题讨论】:
这看起来可能更复杂:一个跨度可以包含文本以外的节点吗?你说的是“中断的巢穴”,但是中断的节点应该去哪里呢? 是的,一个 span 可以包含其他(notSpan)节点,如果可能的话应该保留(在它们的父 span 节点内)。基本上,中断节点应该被视为根本不是节点(就像它们是纯文本一样)。如果唯一的解决方案不能做到这一点,我想我也可以划分其他节点。 恐怕我不太明白你的回答。也许你应该扩展你的例子来展示不同的场景 没错,当您为 span 内的每个 text() 创建span
时,您应该真正解释如何保留其他元素。还要提及您正在使用的 XSLT 版本。
【参考方案1】:
正如我在开场 cmets 中提到的,这绝非易事。这是您可以考虑的另一种方法:
XSLT 1.0
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<xsl:strip-space elements="*"/>
<!-- identity transform -->
<xsl:template match="@*|node()">
<xsl:copy>
<xsl:apply-templates select="@*|node()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="p">
<xsl:copy>
<xsl:apply-templates select="@*|node()|.//span/text()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="span/text()">
<span>
<xsl:attribute name="class">
<xsl:for-each select="ancestor::span">
<xsl:value-of select="@class"/>
</xsl:for-each>
</xsl:attribute>
<xsl:apply-templates select="preceding-sibling::*"/>
<xsl:value-of select="." />
<xsl:if test="not(following-sibling::text())">
<xsl:apply-templates select="following-sibling::*"/>
</xsl:if>
</span>
</xsl:template>
<xsl:template match="span"/>
</xsl:stylesheet>
这在很大程度上类似于 Lingamurthy CS 之前提出的建议 - 但您会看到以下测试输入的不同:
XML
<body>
<h1 class="section">Title</h1>
<p class="main">
ZZZ
<preserveMe>0</preserveMe>
<span class="a">
AAA
<span class="b">
BBB
<span class="c">
CCC
<preserveMe>c</preserveMe>
</span>
bbb
<preserveMe>b</preserveMe>
</span>
aaa
</span>
<preserveMe>1</preserveMe>
</p>
</body>
【讨论】:
【参考方案2】:我希望以下样式表有所帮助:
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:strip-space elements="*"/>
<!-- Identity transform template -->
<xsl:template match="@* | node()">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="p">
<xsl:copy>
<xsl:apply-templates select="@* | text() | .//text()[parent::span]"/>
</xsl:copy>
</xsl:template>
<xsl:template match="text()[parent::span]">
<span>
<xsl:attribute name="class">
<xsl:call-template name="class-value"/>
</xsl:attribute>
<xsl:value-of select="."/>
<xsl:apply-templates select="following-sibling::node()[1][not(self::text()) and not(self::span)]"/>
</span>
</xsl:template>
<xsl:template name="class-value">
<xsl:for-each select="ancestor::span/@class">
<xsl:value-of select="."/>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
【讨论】:
这非常接近。然而,它确实复制了每个正确展平跨度之外的所有旧标签。我可以用一些正则表达式来修复它,直到我弄清楚如何修复它......你知道它为什么会发生吗? @DocBuckets "它确实复制了每个正确展平跨度之外的所有旧标签。" 我不认为它会这样做。您得到的结果是否与此处的结果不同:xsltransform.net/6qVRKwu? 当我在我的真实标记上尝试它时确实如此,但现在我意识到这是由于第 12 行中的<xsl:template match="/p">
指定。我的真实文件有其他父标签,所以我不得不调整代码因此。我明天在工作中再次测试它,如果它最终工作,我会接受答案。
@michael.hor257k 不幸的是,我过度简化了我的 MWE,没有意识到我正在从非跨度标签中丢失类属性。我更新了我的 MWE 以更好地反映我的实际问题。明天我会再玩一些。
@DocBuckets 不用担心,我已经更新了我的答案,这对您更新的输入有用。【参考方案3】:
你在这里..我已经通过嵌套跨度模板递归地完成了它,它带有两个参数,第一个是当前跨度类,用于连接类和当前跨度节点。然后处理嵌套的 span。
因此,在我们的例子中,我只是将根跨度的模板称为 p 标签下的 span。
<xsl:template match="/">
<hmtl>
<body>
<p>
<xsl:for-each select='.//p/span'>
<xsl:call-template name='nested-span'>
<xsl:with-param name='cclass' select='./@class'></xsl:with-param>
<xsl:with-param name='cspan' select='.'></xsl:with-param>
</xsl:call-template>
</xsl:for-each>
</p>
</body>
</hmtl>
</xsl:template>
<xsl:template match="@* | node()">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
</xsl:copy>
</xsl:template>
<xsl:template name="nested-span">
<xsl:param name='cclass'/>
<xsl:param name='cspan' as='node()' />
<span>
<xsl:attribute name='class' select='$cclass'/>
<xsl:value-of select='$cspan/text()[1]' />
<xsl:if test="not(exists(./span))">
<xsl:if test='string-length($cspan/text()[2]) > 0 '>
<xsl:value-of select='$cspan/text()[2]' />
</xsl:if>
<xsl:apply-templates select="./*[local-name() != 'span']"/>
</xsl:if>
</span>
<xsl:for-each select='$cspan/span'>
<xsl:call-template name='nested-span'>
<xsl:with-param name='cclass' select='concat($cclass, ./@class)' ></xsl:with-param>
<xsl:with-param name='cspan' select='.'></xsl:with-param>
</xsl:call-template>
</xsl:for-each>
<xsl:if test="exists(./span)">
<span>
<xsl:attribute name='class' select='$cclass'/>
<xsl:if test='string-length($cspan/text()[2]) > 0 '>
<xsl:value-of select='$cspan/text()[2]' />
</xsl:if>
<xsl:apply-templates select="./*[local-name() != 'span']"/>
</span>
</xsl:if>
</xsl:template>
这是输出
<hmtl>
<body>
<p>
<span class="a">
AAA
</span>
<span class="ab">
BBB
</span>
<span class="abc">
CCC
<preserveMe>
eeee
</preserveMe>
</span>
<span class="ab">
bbb
<preserveMe>
eeee
</preserveMe>
</span>
<span class="a">
aaa
</span>
</p>
</body>
</hmtl>
希望对你有帮助
【讨论】:
看起来这不适用于span
中超过 2 个文本节点。
更新了我的答案,非常感谢。【参考方案4】:
正如您所说,XSLT 2.0 可能是一个可行的选择,我尝试了一种基于节点分组的方法:
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="* | @* | text()">
<xsl:copy>
<xsl:apply-templates select="* | @* | text()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="span">
<xsl:for-each-group select="* | text()" group-adjacent="name() = 'span'">
<xsl:choose>
<xsl:when test="current-group()/self::span">
<!-- a group of span elements: nothing to do yet -->
<xsl:apply-templates select="current-group()"/>
</xsl:when>
<xsl:otherwise>
<!-- a group of text nodes and no-span elements: create span -->
<span class="string-join((ancestor::span/@class), '')">
<xsl:apply-templates select="current-group()"/>
</span>
</xsl:otherwise>
</xsl:choose>
</xsl:for-each-group>
</xsl:template>
</xsl:stylesheet>
要点:
span
元素的子元素(文本节点和其他元素)根据它们是否为 span
s 进行分组
产生与Michael's solution 相同的输出
【讨论】:
以上是关于使用 XSLT 拆分和展平节点的主要内容,如果未能解决你的问题,请参考以下文章