XSLT 处理引号和管道分隔符号

Posted

技术标签:

【中文标题】XSLT 处理引号和管道分隔符号【英文标题】:XSLT to handle quotes and Pipe Delimited symbol 【发布时间】:2021-12-11 15:13:53 【问题描述】:

专家,我需要编写 XSLT 1.0 代码来删除多个条件的引号。

CASE1:删除双引号 CASE2:删除双引号+删除双引号内的管道符号(如果存在) CASE3:从输入字段中删除单引号 "。

输入:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ns0:Accounting xmlns:ns0="http://sample.com">
        <Record>
            <DRCR>"DR"</DRCR>
            <GLREFERENCE>"TEST|CASE"</GLREFERENCE>
            <GLVALUEDATE>EXAM"PLE</GLVALUEDATE>
            <GLACCOUNTNUMBER>"1160</GLACCOUNTNUMBER>
            <GLEXAMPLE>123</GLEXAMPLE>
            <GLEXAMPLE1>EXTRACT|2021-06-16|2853|1308026.7500|1176</GLEXAMPLE1>
        </Record>       
</ns0:Accounting>

** 所需输出:**

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ns0:Accounting xmlns:ns0="http://sample.com">
        <Record>
            <DRCR>DR</DRCR>
            <GLREFERENCE>TEST CASE</GLREFERENCE>
            <GLVALUEDATE>EXAMPLE</GLVALUEDATE>
            <GLACCOUNTNUMBER>1160</GLACCOUNTNUMBER>
            <GLEXAMPLE>123</GLEXAMPLE>
<GLEXAMPLE1>EXTRACT|2021-06-16|2853|1308026.7500|1176</GLEXAMPLE1>
        </Record>       
</ns0:Accounting>

** 我试过的 XSLT:**

<xsl:stylesheet version="1.0" 
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<xsl:strip-space elements="*"/>

<!-- identity transform -->
<xsl:template match="@*|node()">
    <xsl:copy>
        <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
</xsl:template>

<xsl:template match="text()">
    <xsl:call-template name="process">
        <xsl:with-param name="text" select="."/>
    </xsl:call-template>
</xsl:template>

<xsl:template name="process">
    <xsl:param name="text"/>
    <xsl:choose>
        <xsl:when test="contains($text, '&quot;')">
            <xsl:value-of select="substring-before($text, '&quot;')"/>
            <xsl:value-of select="translate(substring-before(substring-after($text, '&quot;'), '&quot;'), '|', '')"/>
            <xsl:call-template name="process">
                <xsl:with-param name="text" select="substring-after(substring-after($text, '&quot;'), '&quot;')"/>
            </xsl:call-template>
        </xsl:when>
        <xsl:otherwise>
            <xsl:value-of select="$text"/>
        </xsl:otherwise>
    </xsl:choose>
</xsl:template>

</xsl:stylesheet>

此 XSLT 不处理案例 3,它在输入字段中有单引号。请在这里提供帮助..

【问题讨论】:

有没有要保留双引号字符或者竖线字符的情况? 嗨,迈克尔,感谢您的回复。双引号不是必需的,但是对于所有情况,我都需要在输入字段中保留竖线,除非竖线在双引号内,那么我需要删除该竖线。其余所有情况下,我需要保持垂直条不变。我更新了问题中的输入示例。 如果文本以引号开头和结尾,这是否可以限制为删除竖线? 不完全是,如果输入是 ||||"TEST|CASE"|||| 那么预期的输出是 ||||TEST CASE|| || 这是很多工作。您使用的是哪个处理器?如果有一些扩展功能可能会更容易。 【参考方案1】:

也许这样的东西对你有用:

XSLT 1.0(+ EXSLT 节点集函数)

<xsl:stylesheet version="1.0" 
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:exsl="http://exslt.org/common"
extension-element-prefixes="exsl">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<xsl:strip-space elements="*"/>

<!-- identity transform -->
<xsl:template match="@*|node()">
    <xsl:copy>
        <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
</xsl:template>

<xsl:template match="text()">
    <xsl:choose>
        <xsl:when test="contains(., '&quot;')">
            <xsl:variable name="tokens">
                <xsl:call-template name="tokenize">
                    <xsl:with-param name="text" select="."/>
                </xsl:call-template>
            </xsl:variable>
            <xsl:for-each select="exsl:node-set($tokens)/token">
                <xsl:choose>
                    <xsl:when test="(position()=1 or position()=last()) and last() > 1">
                        <xsl:value-of select="."/>
                    </xsl:when>
                    <xsl:otherwise>
                        <xsl:value-of select="translate(., '|', '')"/>
                    </xsl:otherwise>
                </xsl:choose>
            </xsl:for-each>
        </xsl:when>
        <xsl:otherwise>
            <xsl:value-of select="."/>
        </xsl:otherwise>
    </xsl:choose>
</xsl:template>

<xsl:template name="tokenize">
    <xsl:param name="text"/>
    <xsl:param name="delimiter" select="'&quot;'"/>
        <xsl:variable name="token" select="substring-before(concat($text, $delimiter), $delimiter)" />
        <xsl:if test="$token">
            <token>
                <xsl:value-of select="$token"/>
            </token>
        </xsl:if>
        <xsl:if test="contains($text, $delimiter)">
            <!-- recursive call -->
            <xsl:call-template name="tokenize">
                <xsl:with-param name="text" select="substring-after($text, $delimiter)"/>
            </xsl:call-template>
        </xsl:if>
</xsl:template>

</xsl:stylesheet>

请注意,这不会检查引号的奇偶性。任何在引号前后的竖线字符都将被删除。例如,输入:

<EXAMPLE>abc|123"def|456"ghi|789"jkl|012</EXAMPLE>

将转换为:

<EXAMPLE>abc|123def456ghi789jkl|012</EXAMPLE>

【讨论】:

考虑到复杂性,在与合作伙伴保持一致后,我更新了这个问题的要求。现有的 XSLT 已经删除了双引号内的竖线。但这些双引号并不总是成对出现。请检查一次。 AFAICT 上面的样式表在您的所有示例中都提供了正确的输出。无论如何,我不打算在您每次更改要求时更改我的答案。这不是编码服务。你应该从你得到的答案中学习并在你自己的工作中实施他们的原则

以上是关于XSLT 处理引号和管道分隔符号的主要内容,如果未能解决你的问题,请参考以下文章

Bigquery - 在 CSV(联合表)中处理双引号和管道字段分隔符

在 hive 的一列中加载具有“(双引号)的管道分隔 CSV 数据

批处理,如何在for 中的 delims 中设置空格和其他字符做分隔符

Linux通配符

linux shell 中的特殊符号

03-linux 通配符和正则表达式