使用 XSLT 将 XML 转换为 CSV
Posted
技术标签:
【中文标题】使用 XSLT 将 XML 转换为 CSV【英文标题】:XML to CSV Using XSLT 【发布时间】:2010-09-26 18:58:19 【问题描述】:我有以下 XML 文档:
<projects>
<project>
<name>Shockwave</name>
<language>Ruby</language>
<owner>Brian May</owner>
<state>New</state>
<startDate>31/10/2008 0:00:00</startDate>
</project>
<project>
<name>Other</name>
<language>Erlang</language>
<owner>Takashi Miike</owner>
<state> Canceled </state>
<startDate>07/11/2008 0:00:00</startDate>
</project>
...
我想从转换 (XSLT) 结果中得到这个:
Shockwave,Ruby,Brian May,New,31/10/2008 0:00:00
Other,Erlang,Takashi Miike,Cancelled,07/11/2008 0:00:00
有谁知道 XSLT 可以实现这一目标?我正在使用 .net 以防万一。
【问题讨论】:
.NET 仅在您使用仅支持 xslt 1.0 的 XslTransform Class 时才重要。这是一个约束吗?如果是这样,则应将其重新标记为xslt-1.0。 如果您使用 Linux askubuntu.com/questions/174143/… 有工具xml2csv。也许,这对你的情况也有用? xml2csv 对我来说工作得很好。我发现文档已损坏,但花了一点时间来记录为我产生可用结果的变通方法,这里:github.com/fordfrog/xml2csv/issues/5#issuecomment-726542532 【参考方案1】:此xsl:stylesheet
可以使用指定的列标题列表,并确保行正确排序。它需要 XSLT 2.0 版。
<?xml version="1.0"?>
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:csv="csv:csv">
<xsl:output method="text" encoding="utf-8"/>
<xsl:strip-space elements="*"/>
<xsl:variable name="delimiter" select="','"/>
<csv:columns>
<column>name</column>
<column>sublease</column>
<column>addressBookID</column>
<column>boundAmount</column>
<column>rentalAmount</column>
<column>rentalPeriod</column>
<column>rentalBillingCycle</column>
<column>tenureIncome</column>
<column>tenureBalance</column>
<column>totalIncome</column>
<column>balance</column>
<column>available</column>
</csv:columns>
<xsl:template match="/property-manager/properties">
<!-- Output the CSV header -->
<xsl:for-each select="document('')/*/csv:columns/*">
<xsl:value-of select="."/>
<xsl:if test="position() != last()">
<xsl:value-of select="$delimiter"/>
</xsl:if>
</xsl:for-each>
<xsl:text>
</xsl:text>
<!-- Output rows for each matched property -->
<xsl:apply-templates select="property"/>
</xsl:template>
<xsl:template match="property">
<xsl:variable name="property" select="."/>
<!-- Loop through the columns in order -->
<xsl:for-each select="document('')/*/csv:columns/*">
<!-- Extract the column name and value -->
<xsl:variable name="column" select="."/>
<xsl:variable name="value" select="$property/*[name() = $column]"/>
<!-- Quote the value if required -->
<xsl:choose>
<xsl:when test="contains($value, '"')">
<xsl:variable name="x" select="replace($value, '"', '""')"/>
<xsl:value-of select="concat('"', $x, '"')"/>
</xsl:when>
<xsl:when test="contains($value, $delimiter)">
<xsl:value-of select="concat('"', $value, '"')"/>
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$value"/>
</xsl:otherwise>
</xsl:choose>
<!-- Add the delimiter unless we are the last expression -->
<xsl:if test="position() != last()">
<xsl:value-of select="$delimiter"/>
</xsl:if>
</xsl:for-each>
<!-- Add a newline at the end of the record -->
<xsl:text>
</xsl:text>
</xsl:template>
</xsl:stylesheet>
【讨论】:
这很好,但它不起作用。replace()
是一个 XPath 2.0 函数。在 XSLT 1.0 中,您必须使用递归字符串替换模板。
使用 xsltproc/libxslt 为我工作 - 这已经足够好了。感谢您指出要求。
@hd1,我还在生产中使用这个脚本,所以你可能做错了什么?
@hd1,也许如果你告诉我到底出了什么问题,我能帮忙吗?
完全没用过xsl,决定用SAX【参考方案2】:
此 CsvEscape
函数是 XSLT 1.0 并转义列值 ,
、"
和换行符,如 RFC 4180 或 Excel。它利用了您可以递归调用 XSLT 模板这一事实:
EscapeQuotes
将所有双引号替换为 2 个双引号,从字符串的开头递归。
模板CsvEscape
检查文本是否包含逗号或双引号,如果是,则用一对双引号将整个字符串括起来,并为字符串调用EscapeQuotes
。
用法示例:xsltproc xmltocsv.xslt file.xml > file.csv
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" encoding="UTF-8"/>
<xsl:template name="EscapeQuotes">
<xsl:param name="value"/>
<xsl:choose>
<xsl:when test="contains($value,'"')">
<xsl:value-of select="substring-before($value,'"')"/>
<xsl:text>""</xsl:text>
<xsl:call-template name="EscapeQuotes">
<xsl:with-param name="value" select="substring-after($value,'"')"/>
</xsl:call-template>
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$value"/>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
<xsl:template name="CsvEscape">
<xsl:param name="value"/>
<xsl:choose>
<xsl:when test="contains($value,',')">
<xsl:text>"</xsl:text>
<xsl:call-template name="EscapeQuotes">
<xsl:with-param name="value" select="$value"/>
</xsl:call-template>
<xsl:text>"</xsl:text>
</xsl:when>
<xsl:when test="contains($value,'
')">
<xsl:text>"</xsl:text>
<xsl:call-template name="EscapeQuotes">
<xsl:with-param name="value" select="$value"/>
</xsl:call-template>
<xsl:text>"</xsl:text>
</xsl:when>
<xsl:when test="contains($value,'"')">
<xsl:text>"</xsl:text>
<xsl:call-template name="EscapeQuotes">
<xsl:with-param name="value" select="$value"/>
</xsl:call-template>
<xsl:text>"</xsl:text>
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$value"/>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
<xsl:template match="/">
<xsl:text>project,name,language,owner,state,startDate</xsl:text>
<xsl:text>
</xsl:text>
<xsl:for-each select="projects/project">
<xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(name)"/></xsl:call-template>
<xsl:text>,</xsl:text>
<xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(language)"/></xsl:call-template>
<xsl:text>,</xsl:text>
<xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(owner)"/></xsl:call-template>
<xsl:text>,</xsl:text>
<xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(state)"/></xsl:call-template>
<xsl:text>,</xsl:text>
<xsl:call-template name="CsvEscape"><xsl:with-param name="value" select="normalize-space(startDate)"/></xsl:call-template>
<xsl:text>
</xsl:text>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
【讨论】:
这是我发现使用 XSLT 1.0 复制引号的唯一解决方案。谢谢!【参考方案3】:找到一个 XML 转换样式表 here(回程机器链接,网站本身是德语)
此处添加的样式表可能会有所帮助:
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" encoding="iso-8859-1"/>
<xsl:strip-space elements="*" />
<xsl:template match="/*/child::*">
<xsl:for-each select="child::*">
<xsl:if test="position() != last()">"<xsl:value-of select="normalize-space(.)"/>", </xsl:if>
<xsl:if test="position() = last()">"<xsl:value-of select="normalize-space(.)"/>"<xsl:text>
</xsl:text>
</xsl:if>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
也许您想删除 xsl:if 标记内的引号,这样它就不会将您的值放入引号中,具体取决于您要使用 CSV 文件的位置。
【讨论】:
注意,如果原始数据中有逗号,是不会转义的。您可能希望使用 contains() 添加测试并使用 translate() 添加转义。 我认为这不能处理数据中的双引号。要转义双引号,您必须用两个双引号替换它。 通常情况下,如果值包含以下任何一项,则只需将其括在引号中:分隔符 (',
')、引号 ('"
')、换行符 ( &#xD;
)。如果需要引用,则必须先将任何内引号加倍 ('""
')。
在 unix 上正确的新行是 &#10;
(\n)。 &#xD;
是十六进制 \r
@BotMaster3000:谢谢,替换为回路机链接【参考方案4】:
这是一个带有可配置参数的版本,您可以通过编程方式设置:
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" encoding="utf-8" />
<xsl:param name="delim" select="','" />
<xsl:param name="quote" select="'"'" />
<xsl:param name="break" select="'
'" />
<xsl:template match="/">
<xsl:apply-templates select="projects/project" />
</xsl:template>
<xsl:template match="project">
<xsl:apply-templates />
<xsl:if test="following-sibling::*">
<xsl:value-of select="$break" />
</xsl:if>
</xsl:template>
<xsl:template match="*">
<!-- remove normalize-space() if you want keep white-space at it is -->
<xsl:value-of select="concat($quote, normalize-space(), $quote)" />
<xsl:if test="following-sibling::*">
<xsl:value-of select="$delim" />
</xsl:if>
</xsl:template>
<xsl:template match="text()" />
</xsl:stylesheet>
【讨论】:
我喜欢强制引用。至少在导入 Excel 时,它会处理原始数据中存在 $delim 的情况。 如果我们还想包含列名,我们需要做什么?? @omer 有几种方法可以做到这一点,具体取决于您的 XML。最好是问一个新问题,因为评论区不是讨论此类问题的好地方,而且因为在 this 线程中它不是问题的一部分,所以我不会编辑答案。以上是关于使用 XSLT 将 XML 转换为 CSV的主要内容,如果未能解决你的问题,请参考以下文章
使用 Python 或 XSLT 将复杂的 XML 转换为 CSV