使用 XSLT 将 XML 转换为 CSV

Posted

技术标签:

【中文标题】使用 XSLT 将 XML 转换为 CSV【英文标题】:XML to CSV Using XSLT 【发布时间】:2010-09-26 18:58:19 【问题描述】:

我有以下 XML 文档:

<projects>
  <project>
   <name>Shockwave</name> 
   <language>Ruby</language> 
   <owner>Brian May</owner> 
   <state>New</state> 
   <startDate>31/10/2008 0:00:00</startDate> 
  </project>
  <project>
   <name>Other</name> 
   <language>Erlang</language> 
   <owner>Takashi Miike</owner> 
   <state> Canceled </state> 
   <startDate>07/11/2008 0:00:00</startDate> 
  </project>
...

我想从转换 (XSLT) 结果中得到这个:

Shockwave,Ruby,Brian May,New,31/10/2008 0:00:00
Other,Erlang,Takashi Miike,Cancelled,07/11/2008 0:00:00

有谁知道 XSLT 可以实现这一目标?我正在使用 .net 以防万一。

【问题讨论】:

.NET 仅在您使用仅支持 xslt 1.0 的 XslTransform Class 时才重要。这是一个约束吗?如果是这样,则应将其重新标记为xslt-1.0。 如果您使用 Linux askubuntu.com/questions/174143/… 有工具xml2csv。也许,这对你的情况也有用? xml2csv 对我来说工作得很好。我发现文档已损坏,但花了一点时间来记录为我产生可用结果的变通方法,这里:github.com/fordfrog/xml2csv/issues/5#issuecomment-726542532 【参考方案1】:

xsl:stylesheet 可以使用指定的列标题列表,并确保行正确排序。它需要 XSLT 2.0 版。

<?xml version="1.0"?>
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:csv="csv:csv">
    <xsl:output method="text" encoding="utf-8"/>
    <xsl:strip-space elements="*"/>

    <xsl:variable name="delimiter" select="','"/>

    <csv:columns>
        <column>name</column>
        <column>sublease</column>
        <column>addressBookID</column>
        <column>boundAmount</column>
        <column>rentalAmount</column>
        <column>rentalPeriod</column>
        <column>rentalBillingCycle</column>
        <column>tenureIncome</column>
        <column>tenureBalance</column>
        <column>totalIncome</column>
        <column>balance</column>
        <column>available</column>
    </csv:columns>

    <xsl:template match="/property-manager/properties">
        <!-- Output the CSV header -->
        <xsl:for-each select="document('')/*/csv:columns/*">
                <xsl:value-of select="."/>
                <xsl:if test="position() != last()">
                    <xsl:value-of select="$delimiter"/>
                </xsl:if>
        </xsl:for-each>
        <xsl:text>&#xa;</xsl:text>
    
        <!-- Output rows for each matched property -->
        <xsl:apply-templates select="property"/>
    </xsl:template>

    <xsl:template match="property">
        <xsl:variable name="property" select="."/>
    
        <!-- Loop through the columns in order  -->
        <xsl:for-each select="document('')/*/csv:columns/*">
            <!-- Extract the column name and value  -->
            <xsl:variable name="column" select="."/>
            <xsl:variable name="value" select="$property/*[name() = $column]"/>
        
            <!-- Quote the value if required -->
            <xsl:choose>
                <xsl:when test="contains($value, '&quot;')">
                    <xsl:variable name="x" select="replace($value, '&quot;',  '&quot;&quot;')"/>
                    <xsl:value-of select="concat('&quot;', $x, '&quot;')"/>
                </xsl:when>
                <xsl:when test="contains($value, $delimiter)">
                    <xsl:value-of select="concat('&quot;', $value, '&quot;')"/>
                </xsl:when>
                <xsl:otherwise>
                    <xsl:value-of select="$value"/>
                </xsl:otherwise>
            </xsl:choose>
        
            <!-- Add the delimiter unless we are the last expression -->
            <xsl:if test="position() != last()">
                <xsl:value-of select="$delimiter"/>
            </xsl:if>
        </xsl:for-each>
    
        <!-- Add a newline at the end of the record -->
        <xsl:text>&#xa;</xsl:text>
    </xsl:template>

</xsl:stylesheet>

【讨论】:

这很好,但它不起作用。 replace() 是一个 XPath 2.0 函数。在 XSLT 1.0 中,您必须使用递归字符串替换模板。 使用 xsltproc/libxslt 为我工作 - 这已经足够好了。感谢您指出要求。 @hd1,我还在生产中使用这个脚本,所以你可能做错了什么? @hd1,也许如果你告诉我到底出了什么问题,我能帮忙吗? 完全没用过xsl,决定用SAX【参考方案2】:

CsvEscape 函数是 XSLT 1.0 并转义列值 ," 和换行符,如 RFC 4180 或 Excel。它利用了您可以递归调用 XSLT 模板这一事实:

模板 EscapeQuotes 将所有双引号替换为 2 个双引号,从字符串的开头递归。 模板CsvEscape 检查文本是否包含逗号或双引号,如果是,则用一对双引号将整个字符串括起来,并为字符串调用EscapeQuotes

用法示例:xsltproc xmltocsv.xslt file.xml &gt; file.csv

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  <xsl:output method="text" encoding="UTF-8"/>

  <xsl:template name="EscapeQuotes">
    <xsl:param name="value"/>
    <xsl:choose>
      <xsl:when test="contains($value,'&quot;')">
    <xsl:value-of select="substring-before($value,'&quot;')"/>
    <xsl:text>&quot;&quot;</xsl:text>
    <xsl:call-template name="EscapeQuotes">
      <xsl:with-param name="value" select="substring-after($value,'&quot;')"/>
    </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
    <xsl:value-of select="$value"/>
      </xsl:otherwise>
    </xsl:choose>
  </xsl:template>

  <xsl:template name="CsvEscape">
    <xsl:param name="value"/>
    <xsl:choose>
    <xsl:when test="contains($value,',')">
      <xsl:text>&quot;</xsl:text>
      <xsl:call-template name="EscapeQuotes">
    <xsl:with-param name="value" select="$value"/>
      </xsl:call-template>
      <xsl:text>&quot;</xsl:text>
    </xsl:when>
    <xsl:when test="contains($value,'&#xA;')">
      <xsl:text>&quot;</xsl:text>
      <xsl:call-template name="EscapeQuotes">
    <xsl:with-param name="value" select="$value"/>
      </xsl:call-template>
      <xsl:text>&quot;</xsl:text>
    </xsl:when>
    <xsl:when test="contains($value,'&quot;')">
      <xsl:text>&quot;</xsl:text>
      <xsl:call-template name="EscapeQuotes">
    <xsl:with-param name="value" select="$value"/>
      </xsl:call-template>
      <xsl:text>&quot;</xsl:text>
    </xsl:when>
    <xsl:otherwise>
      <xsl:value-of select="$value"/>
    </xsl:otherwise>
    </xsl:choose>
  </xsl:template>
  
  <xsl:template match="/">
    <xsl:text>project,name,language,owner,state,startDate</xsl:text>
    <xsl:text>&#xA;</xsl:text>
    <xsl:for-each select="projects/project">
      <xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(name)"/></xsl:call-template>
      <xsl:text>,</xsl:text>
      <xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(language)"/></xsl:call-template>
      <xsl:text>,</xsl:text>
      <xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(owner)"/></xsl:call-template>
      <xsl:text>,</xsl:text>
      <xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(state)"/></xsl:call-template>
      <xsl:text>,</xsl:text>
      <xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(startDate)"/></xsl:call-template>
      <xsl:text>&#xA;</xsl:text>
    </xsl:for-each>
  </xsl:template>
</xsl:stylesheet>

【讨论】:

这是我发现使用 XSLT 1.0 复制引号的唯一解决方案。谢谢!【参考方案3】:

找到一个 XML 转换样式表 here(回程机器链接,网站本身是德语)

此处添加的样式表可能会有所帮助:

<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" encoding="iso-8859-1"/>

<xsl:strip-space elements="*" />

<xsl:template match="/*/child::*">
<xsl:for-each select="child::*">
<xsl:if test="position() != last()">"<xsl:value-of select="normalize-space(.)"/>",    </xsl:if>
<xsl:if test="position()  = last()">"<xsl:value-of select="normalize-space(.)"/>"<xsl:text>&#xD;</xsl:text>
</xsl:if>
</xsl:for-each>
</xsl:template>

</xsl:stylesheet>

也许您想删除 xsl:if 标记内的引号,这样它就不会将您的值放入引号中,具体取决于您要使用 CSV 文件的位置。

【讨论】:

注意,如果原始数据中有逗号,是不会转义的。您可能希望使用 contains() 添加测试并使用 translate() 添加转义。 我认为这不能处理数据中的双引号。要转义双引号,您必须用两个双引号替换它。 通常情况下,如果值包含以下任何一项,则只需将其括在引号中:分隔符 (',')、引号 ('"')、换行符 ( &amp;#xD;)。如果需要引用,则必须先将任何内引号加倍 ('""')。 在 unix 上正确的新行是 &amp;#10; (\n)。 &amp;#xD; 是十六进制 \r @BotMaster3000:谢谢,替换为回路机链接【参考方案4】:

这是一个带有可配置参数的版本,您可以通过编程方式设置:

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  <xsl:output method="text" encoding="utf-8" />

  <xsl:param name="delim" select="','" />
  <xsl:param name="quote" select="'&quot;'" />
  <xsl:param name="break" select="'&#xA;'" />

  <xsl:template match="/">
    <xsl:apply-templates select="projects/project" />
  </xsl:template>

  <xsl:template match="project">
    <xsl:apply-templates />
    <xsl:if test="following-sibling::*">
      <xsl:value-of select="$break" />
    </xsl:if>
  </xsl:template>

  <xsl:template match="*">
    <!-- remove normalize-space() if you want keep white-space at it is --> 
    <xsl:value-of select="concat($quote, normalize-space(), $quote)" />
    <xsl:if test="following-sibling::*">
      <xsl:value-of select="$delim" />
    </xsl:if>
  </xsl:template>

  <xsl:template match="text()" />
</xsl:stylesheet>

【讨论】:

我喜欢强制引用。至少在导入 Excel 时,它会处理原始数据中存在 $delim 的情况。 如果我们还想包含列名,我们需要做什么?? @omer 有几种方法可以做到这一点,具体取决于您的 XML。最好是问一个新问题,因为评论区不是讨论此类问题的好地方,而且因为在 this 线程中它不是问题的一部分,所以我不会编辑答案。

以上是关于使用 XSLT 将 XML 转换为 CSV的主要内容,如果未能解决你的问题,请参考以下文章

使用 Python 或 XSLT 将复杂的 XML 转换为 CSV

使用 XSLT 将 XML 转换为 CSV

使用 XSLT 将 XML 转换为 CSV,用于在单个标记中以空格分隔的多个记录

使用 XSLT 将 XML 转换为多个 CSV

使用XSLT将XML转换为csv

使用 XSLT 格式问题将 XML 转换为 CSV