XSLT 1.0:分组和删除重复项
Posted
技术标签:
【中文标题】XSLT 1.0:分组和删除重复项【英文标题】:XSLT 1.0: grouping and removing duplicate 【发布时间】:2011-03-31 21:50:43 【问题描述】:我有一个 xml 分组挑战,我需要对其进行分组并删除重复项,如下所示:
<Person>
<name>John</name>
<date>June12</date>
<workTime taskID=1>34</workTime>
<workTime taskID=1>35</workTime>
<workTime taskID=2>12</workTime>
</Person>
<Person>
<name>John</name>
<date>June13</date>
<workTime taskID=1>21</workTime>
<workTime taskID=2>11</workTime>
<workTime taskID=2>14</workTime>
</Person>
请注意,对于 name/taskID/date 的特定出现,仅选取第一个。 在这个例子中,
<workTime taskID=1>35</workTime>
<workTime taskID=2>14</workTime>
会被放在一边。
以下是预期的输出:
<Person>
<name>John</name>
<taskID>1</taskID>
<workTime>
<date>June12</date>
<time>34</time>
</worTime>
<workTime>
<date>June13</date>
<time>21</time>
</worTime>
</Person>
<Person>
<name>John</name>
<taskID>2</taskID>
<workTime>
<date>June12</date>
<time>12</time>
</worTime>
<workTime>
<date>June13</date>
<time>11</time>
</worTime>
</Person>
我尝试使用以下键在 XSLT 1.0 中使用 muenchian 分组:
<xsl:key name="PersonTasks" match="workTime" use="concat(@taskID, ../name)"/>
但是那我怎么只选择第一次出现的
concat(@taskID, ../name, ../date)
? 看来我需要两级钥匙!?
【问题讨论】:
这个问题既有趣又困难(+1)。请参阅我的答案以获得有效且简短的解决方案。 【参考方案1】:这种转变:
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:key name="kwrkTimeByNameTask" match="workTime"
use="concat(../name, '+', @taskID)"/>
<xsl:key name="kDateByName" match="date"
use="../name"/>
<xsl:key name="kwrkTimeByNameTaskDate" match="workTime"
use="concat(../name, '+', @taskID, '+', ../date)"/>
<xsl:template match="/">
<xsl:for-each select=
"*/*/workTime
[generate-id()
=
generate-id(key('kwrkTimeByNameTask',
concat(../name, '+', @taskID)
)[1]
)
]
">
<xsl:sort select="../name"/>
<xsl:sort select="@taskID" data-type="number"/>
<xsl:variable name="vcurTaskId" select="@taskID"/>
<Person>
<name><xsl:value-of select="../name"/></name>
<taskID><xsl:value-of select="@taskID"/></taskID>
<xsl:for-each select=
"key('kDateByName', ../name)
[key('kwrkTimeByNameTaskDate',
concat(../name, '+', current()/@taskID, '+', .)
)
]
">
<workTime>
<date><xsl:value-of select="."/></date>
<time>
<xsl:value-of select=
"key('kwrkTimeByNameTaskDate',
concat(../name, '+', $vcurTaskId, '+', .)
)"/>
</time>
</workTime>
</xsl:for-each>
</Person>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
在提供的 XML 上应用时(从多个问题更正为格式正确):
<t>
<Person>
<name>John</name>
<date>June12</date>
<workTime taskID="1">34</workTime>
<workTime taskID="1">35</workTime>
<workTime taskID="2">12</workTime>
</Person>
<Person>
<name>John</name>
<date>June13</date>
<workTime taskID="1">21</workTime>
<workTime taskID="2">11</workTime>
<workTime taskID="2">14</workTime>
</Person>
</t>
产生想要的正确结果:
<Person>
<name>John</name>
<taskID>1</taskID>
<workTime>
<date>June12</date>
<time>34</time>
</workTime>
<workTime>
<date>June13</date>
<time>21</time>
</workTime>
</Person>
<Person>
<name>John</name>
<taskID>2</taskID>
<workTime>
<date>June12</date>
<time>12</time>
</workTime>
<workTime>
<date>June13</date>
<time>11</time>
</workTime>
</Person>
解释:
首先,我们通过使用 Muenchian 方法进行分组,获得具有唯一一对 ../name
、@taskID
的所有 workTime
元素。
我们按../name
和@taskID
对这些内容进行排序 -- 按此顺序。
对于每一个这样的workTime
,我们得到所有date
元素,这些元素与workTime
的../name
一起列出,只留下这些date
元素中的那些,其中有一个workTime
具有相同的../date
和../name
。
在上一步中,我们使用了两个不同的辅助键:'kDateByName'
索引所有date
元素的../name
,而'kwrkTimeByNameTaskDate'
索引所有workTime
元素他们的../name
、他们的../date
和他们的@taskID
。
所以,下面的意思:
<xsl:for-each select=
"key('kDateByName', ../name)
[key('kwrkTimeByNameTaskDate',
concat(../name, '+', current()/@taskID, '+', .)
)
]
">
是:
对于每个 date
对于那个 name
,这样一个 workTime
对于那个 name
, date
和 @taskID
(当前的 workTime
外部 <xsl:for-each>
) 存在,请执行此 <xsl:for-each>
指令正文中的任何内容。
【讨论】:
你能解释一下你的解决方案的设计吗?它看起来又短又漂亮,但我想尽可能多地从中学习。谢谢 @Daniel:我添加了解释。 我想知道是否最好使用简单的 Muenchian 分组,然后检查前面的兄弟姐妹是否重复。这会是一个好的解决方案吗? @Daniel:如果我们有钥匙的力量,那为什么还要回到兄弟姐妹的比较呢?【参考方案2】:XSLT 中的分组通常使用一种称为 Muenchian 方法的方法来完成。在此处查找更多数据:http://www.jenitennison.com/xslt/grouping/muenchian.html
【讨论】:
【参考方案3】:只是为了好玩,另一种带有两个键的解决方案。这个样式表:
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:key name="kWorkTimeByName-TaskID" match="workTime"
use="concat(../name,'++',@taskID)"/>
<xsl:key name="kWorkTimeByName-Date-TaskID" match="workTime"
use="concat(../name,'++',../date,'++',@taskID)"/>
<xsl:template match="/">
<xsl:variable name="vAllWorkTime" select="*/*/workTime"/>
<result>
<xsl:for-each select="$vAllWorkTime
[count(.|key('kWorkTimeByName-TaskID',
concat(../name,'++',@taskID))[1])=1]">
<xsl:sort select="../name"/>
<xsl:sort select="@taskID" data-type="number"/>
<Person>
<xsl:copy-of select="../name"/>
<taskID>
<xsl:value-of select="@taskID"/>
</taskID>
<xsl:for-each select="$vAllWorkTime
[count(.|key('kWorkTimeByName-Date-TaskID',
concat(current()/../name,'++',
../date,'++',current()/@taskID))[1])=1]">
<xsl:sort select="../date"/>
<xsl:copy>
<xsl:copy-of select="../date"/>
<time>
<xsl:value-of select="."/>
</time>
</xsl:copy>
</xsl:for-each>
</Person>
</xsl:for-each>
</result>
</xsl:template>
</xsl:stylesheet>
输出:
<result>
<Person>
<name>John</name>
<taskID>1</taskID>
<workTime>
<date>June12</date>
<time>34</time>
</workTime>
<workTime>
<date>June13</date>
<time>21</time>
</workTime>
</Person>
<Person>
<name>John</name>
<taskID>2</taskID>
<workTime>
<date>June12</date>
<time>12</time>
</workTime>
<workTime>
<date>June13</date>
<time>11</time>
</workTime>
</Person>
</result>
【讨论】:
我想知道是否最好使用简单的 Muenchian 分组,然后检查前面的兄弟姐妹是否重复。这会是一个好的解决方案吗? concat中的'++'、'+'或none有什么区别? @Daniel:关于分隔符字符串:它必须是一个不能在任何一个键中的字符串,所以把 Dimitre 评论主要当作一个笑话;)关于分组:你是按名称分组和任务,然后您按日期分组(因此键变为名称,任务和日期);如果您将所有节点用于最后一个当前组或仅使用第一个组,这对算法逻辑没有影响。以上是关于XSLT 1.0:分组和删除重复项的主要内容,如果未能解决你的问题,请参考以下文章